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知识 图 谱 则 在 将 人 类 知识 组 织 成 结构 化 知识 系统 ， 是 人 工 知 能 实现 真正 意义 的 理解 、 记 忆 与 推 
理 的 重要 基础 。 知 识 图 详 作 为 典型 的 符号 表示 系统 ， 如 何 有 效用 于 机 上 盘 学 习 算 法 ， 面 临 厦 知识 表示 、 
部 识 获取 和 计算 推理 等 方面 的 诸多 挑战 。 近 年 来 ， 以 神经 网 络 为 代表 的 深度 学 习 技 术 引 发 了 人 工 智 
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本 书 介绍 了 作者 团队 在 知识 图 谱 与 深度 学 习 方 面 的 研究 成 果 ， 展 现 了 数据 驱动 的 深度 学 习 与 符 
号 表示 的 知识 图 谱 之 间 相 互补 充 和 促进 的 技术 趋势 。 本 书 内 容 对 于 人 工 智 能 基础 俩 究 具 有 一 定 的 参 
考 意义 ， 既 适合 专业 人 士 了 解 知 识 图 谐 、 闪 度 学 习 和 人 工 智 能 的 前 沿 热 点 ， 也 适合 对 人 工 智能 感 兴 
趣 的 本 科 生 和 研究 生 作为 学 习 读 物 。 
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知识 就 是 力量 。 
一 一 [ 英 ] 弗 兰 西 斯 培根 


知识 能 够 丰富 人 的 思想 ， 能 够 让 人 更 聪明 。 我 们 通过 思考 ， 获 得 知识 就 能 解决 我 们 
从 前 所 不 知道 的 很 多 问题 。 这 时 ， 知 识 就 是 一 种 力量 。 而 人 工 智能 想 要 让 计算 机 像 人 一 
样 思考 ， 同 样 需要 知识 的 力量 。 计 算 机 实现 人 工 智能 需要 哪些 知识 ， 这 些 知 识 又 要 如 何 
RI., 如何 获 取 , 如 何 计 算 ， 以 及 如 何 使 用 , 都 是 人 工 智能 的 重要 研究 读 题 。 

近年 来 ， 深度 学 习 拉 术 大 放 寞 彩 , 极 大 地 提升 了 目 然 语言 处 理 、 计 算 机 视觉 等 人 工 
智能 任务 的 性 能 。 我 们 应 当 辩 证 地 看 行 深 度 学 习 技 术 的 历史 地 位 。 一 方面 ,， 它 充分 利用 
人 工 神经 网 络 的 分 布 式 表示 能 力 和 层次 结构 这 化 能 力 ， 从 大 规模 训练 数据 中 目 动 学 习 ， 
显 若 据 升 了 对 无 络 构 文本 、 图 像 、 语 音 数据 表 后 语义 信息 的 表示 与 学 习性 能 ， 将 数据 驱 
动 方法 推 回 新 的 高 度 ; 改 一 方面 ,我 们 也 认识 到 ,深度 学 习 从 大 规模 数据 中 目 动 学 习 任 
务 模式 和 语义 信息 ， 既 受到 大 数据 长 尾 分 布 的 制约 ， 也 无 法 真正 理解 这 些 模式 与 语义 ， 
缺少 可 解释 性 ; 近年 来 的 研究 也 表明 , 深度 学 习 技术 无 法 有 效应 对 有 针对 性 的 攻击 样 例 ， 
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数据 与 知识 ， 是 实现 人 工 智能 的 两 大 基石 。 对 大 规模 数据 的 学 习 与 利用 ， 离 不 开 深 
度 学 习 技术 。 但 要 实现 有 理解 能 力 的 人 工 智 能 , 还 需要 各 类 知识 的 文 持 。 最 终 , 我 们 需要 
探索 出 一 条 能 够 同时 充分 利用 数据 与 知识 的 方案 , 才能 实现 有 理解 能 力 的 人 工 智 能 ， 共 
有 较 好 的 鲁 棒 性 和 可 解释 性 。 我 们 姑且 将 面 由 人 工 智 能 的 知识 计算 研究 称 为 知识 智能 ， 
涵 荔 知识 表示 、 获 取 、 计 算 和 推理 应 用 等 研究 课题 。 其 中 ,知识 表示 则 在 探索 如 何 对 不 
同类 型 知识 进行 组 织 和 表示 , 文 持 计算 机 最 大 化 地 利用 这 些 知识 ; 知识 获取 由 在 探索 如 
何 从 互联 网 大 规模 的 结构 化 、 半 结构 、 无 结构 数据 中 目 动 获取 我 们 需要 的 知识 ; 知识 计 
算 和 推理 则 则 在 探索 如 何 更 好 地 利用 大 规模 知识 库 进行 各 类 知识 计算 与 推理 应 用 , 文 持 
人 工 智 能 实现 从 数据 智能 到 知识 智能 的 跃迁 。 

我 所 在 的 清华 大 学 目 然 语言 处 理 与 社会 人 文 计 算 实 验 室 (THUNLP)， 在 学 术 带 头 
人 孙 诚 松 教 授 的 带领 下 ， 主 要 从 事 目 然 语言 处 理 、 知 识 图 谱 、 机 器 翻译 和 社会 计算 研 
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究 。2014 年 ， 孙 成 松 教授 作为 首席 科学 家 率 头 组 织 了 题 为 “面向 三 元 空间 的 互联 网 中 
文 信息 处 理 理 论 与 方法 ”的 国家 重点 基础 研究 发 展 计 划 (“973” 计 划 ) 项 目 。 在 2013 年 
申请 项 目 时 ,深度 学 习 初 露 锋 芒 但 尚未 成 席卷 之 势 ， 孙 成 松 教授 带领 的 项 目 团队 经 过 多 
次 研讨 认为 ,深度 学 习 技 术 将 对 自然 语言 处 理 带 来 颠覆 性 变化 ,并 意识 到 知识 对 自然 语 
言 理解 的 重要 价值 。 经 过 2014—2018 年 的 5 FRA, 项 目 组 在 国内 率先 开展 并 坚持 探索 
了 面向 自然 语言 处 理 的 深度 学 习 技 术 , 系统 研究 了 面向 自然 语言 理解 的 知识 获取 与 应 用 
技术 ， 取 得 了 一 系列 原创 成 果 。 其 中 ， 孙 戊 松 教授 带领 团队 主要 负责 项 目的 基础 理论 研 
究 , 提出 了 融合 知识 的 统一 语义 表示 框架 ， 以 及 知识 指导 的 目 然 语 言 处 理 框架 等 学 术 思 
AE, 相关 发 表 论 文 、 开 源 项 目 、 演示 系统 获得 了 国内 外 的 广泛 关注 。 

为 了 更 好 地 问 国 内 读者 介绍 在 知识 智能 方面 取得 的 最 新 进展 , 我 们 整理 出 版 了 这 部 
中 文 专 着 。“ 知 识 图 谱 ” 本 是 谷歌 的 一 款 文 持 搜索 引擎 的 世界 知识 产品 , 就 像 “ 大 数据 ” 
一 样 ， 由 于 名 字 贴 切 上 口 ， 近 年 来 在 学 术 界 和 产业 界 被 广泛 用 来 指 代 各 类 知识 库 ， 本 书 
也 择 善 而 从 , 用 知识 图 谱 来 泛 指 我 们 研究 的 语言 知识 和 世界 知识 等 各 类 知识 库 。 本 书 主 
要 涉猎 语言 知识 和 世界 知识 两 种 类 型 知识 , 内容 包括 面向 这 两 类 知识 在 表示 学 习 、 上 自动 
获取 与 计算 应 用 方面 的 最 新 尝试 。 

本 书 主要 内 容 是 我 们 在 知识 智能 方面 的 最 新 研究 成 果 , 而 非 对 知识 图 谱 和 深度 学 习 
技术 的 科普 介绍 , 因此 更 适合 具备 自然 语言 处 理 和 知识 图 谱 基 础 知识 的 相关 研究 生 和 学 
者 ,以 及 具有 类 似 背 景 的 对 人 工 智能 和 知识 图 谱 感 兴趣 的 人 士 。 为 了 方便 读者 阅读 ,本 
书 在 绪论 中 介绍 了 关于 自然 语言 处 理 、 知 识 图 谱 和 深度 学 习 等 比较 全 面 的 背景 。 MRE 
者 希望 更 全 面 了 解 知识 图 谱 基 础 知识 , 建议 阅读 中 国 科 学 院 自动 化 研究 所 赵 军 老师 团队 
2018 年 出 版 的 《知识 图 谱 》， 它 是 全 面 了 解 和 学 习 该 领域 的 理想 教材 。 如 果 读 者 希望 更 
全 面 了 解 深度 学 习 基 础 知识 ， 建 议 阅 读 lan Goodfellow, Yoshua Bengio、Aaron Courville 
等 学 者 2016 年 出 版 的 Deep Learning, 它 是 全 面 了 解 和 学 习 该 领域 的 理想 教材 , 国内 已 有 
翻译 版 。 

本 书 由 孙 戊 松 教 授 指导 ， 由 刘知远 具体 组 织 撰写 ， 课 题 组 的 博士 生 韩 旭 、 岂 凡 超 和 
本 科 生 于 志 竟 成 、 杨 承 昊 等 担任 了 主要 撰写 与 校对 工作 。 本 书 参考 了 实验 室 涂 存 超 、 林 
衍 凯 、 谢 若 冰 等 几 位 博士 研究 生 和 硕士 研究 生 的 学 位 论文 。 课 题 组 的 于 鹏 飞 (3.4 E 
晓 智 (3.6 FW). RR (4.3 节 )、 刘 正 卑 (4.4 节 )、 刘 阳光 (6.3 节 )、 辛 极 4.24. KE 
(6.4 节 、7.3 9). GREY (7.2 节 、7.3 节 )、 欧 阳 思 聪 (7.2 49. 7.37). BBS (63 节 )、 
ARF (3.2 节 )、 黄 励 新 (3.3 节 )、 黄 俊杰 (5.3 节 、6.5 节 )、 曹 书 林 (3.5 节 )、 常 亮 (6.4 
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47.6.5 W). BG (3.7 节 )、 臧 原 (5.3 4. 6.345. 6.5 节 ) 等 同学 参与 了 本 书 的 素材 准备 
工作 ( 按 姓氏 笔画 排列 ,括号 内 为 有 贡献 的 章节 号 )。 
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绪论 


:知识 ”二 字 ,， 早 在 甲骨文 中 吏 已 经 出 现 :“ 知 ” 造 字 本 义 是 “谈论 和 传授 狩猎 作战 的 
AW: W ETENE PREUR o R ARTF) K a 释义 为 “从 口 从 矢 ， 
知 理 之 速 ， 如 矢 之 疾 也 ”， 大 意 是 “明日 道理 的 人 说 话 如 同 射 第 一 语 中 的 ”"。 古 代 “ 知 识 ” 
尚 指认 识 的 人 或 事物 ， 进入 20 世纪 , “知识 ” 有 了 现在 的 含义 《现代 汉 语词 典 》 释 义 为 
“人 们 在 社会 实践 中 所 获得 的 认识 和 经 验 的 总 和 ?”。 在 中 国文 化 中 ， 人 类 的 智慧 从 来 与 知 
Wane hee. “A” Al “A” PAAR, FL “PZ ARIZ, 不 知 为 不 知 ， 是 知 也 ”， 
最 后 一 个 “ 知 ” 即 通 “ 智 ” 字 。 

知识 是 人 类 智能 的 象征 。 知 识 对 人 工 智 能 而 言 同样 具有 重要 意义 。 目 1956 年 达 特 其 
斯 研讨 会 首次 提出 人 工 智能 以 来 , 在 多 年 的 发 展 历史 中 , 知识 一 直 是 人 工 智 能 的 核心 命 
题 。 实 际 上 ,作为 人 工 智 能 学 科 的 思想 来 源 之 一 ,英国 著名 哲学 家 们 特 兰 ， 罗 素 等 倡导 
创立 的 分 析 哲 学 , 驶 致力 于 采用 各 种 形式 化 手段 来 探讨 人 类 对 世界 的 认识 〈 即 知识 ), 现 
在 计算 机 科学 的 重要 理论 基础 数理 逻辑 就 起 源 于 此 。 早期 人 工 智能 研究 多 关注 通用 搜索 
机 制 来 解决 智能 问题 , 但 MIT 著名 学 者 约翰 。 考 卡 锡 早 在 1958 年 就 发 布 了 “有 常识 的 
程序 *， 首 次 在 系统 中 考虑 了 关于 世界 的 一 般 知 识 〈 即 音 识 )。 由 于 简单 的 搜索 和 规则 方 
法 无 法 解决 大 规模 的 困难 和 复杂 问题 ，20 世纪 70 年 代 很 多 学 者 转 而 解决 专门 领域 的 智 
能 任务 ， 以 斯 坦 福 大 学 著名 学 者 爱德华 ，。 费 根 鲍 姆 为 诈 的 学 者 通过 收集 领域 专业 知识 研 
制 了 各 类 “专家 系统 ”, 在 分 析 化 学 、 医 疗 诊断 等 领域 取得 了 喜人 成 绩 。 费 根 鲍 姆 在 1977 
年 发 表 文 章 , 正式 提出 “知识 工程 ” 的 思想 ， 从此， 以 知识 表示 、 获 取 和 应 用 为 主要 内 容 
的 知识 智能 成 为 人 工 智能 的 重要 研究 方 问 。 

进入 21 世纪, 人 工 乔 能 在 数据 和 计算 的 双重 加 持 下 突飞猛进 ,在 知识 智能 方面 , 2012 
年 搜索 引擎 巨头 谷歌 (Google) 发布 了 知识 搜索 产品 谷歌 知识 图 谱 (Google Knowledge 
Graph)， 提 出 “Things，Not Strings” 的 理念 。 对 于 用 户 输入 的 查询 ， 谷 歌 搜索 引擎 将 不 
止 返 回 匹 配 碍 询 关 键 词 的 相关 网 页 ， 还 会 根据 查询 中 提 及 的 人 名 、 地 名 、 机 构 名 等 实体 
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信息 ,展示 这 些 实体 的 相关 结构 化 信息 。 如 图 1.1 Prax, AP aA “BEA” IN, 谷歌 搜索 
引擎 不 仅 返 回 相 关 网 页 ,而 且 会 直接 展示 姚明 的 生日 、 里 高 等 信息 。 在 知识 图 谱 的 支持 
F. 谷歌 搜索 引擎 还 能 够 回答 用 户 提 出 的 一 些 简单 问题 如 “姚明 的 生日 是 哪 天 ? ”等 ， 
显赫 提升 搜索 引擎 的 用 户 体 验 ， 因 此 微软 必 应 、 百 度 、 搜 狗 等 各 大 互联 网 公司 纷纷 推出 
知识 搜索 功能 。 与 此 同时 ,语音 对 话 助手 和 智能 音箱 等 新 兴 服 务 形 态 的 出 现 ， 以 及 人 工 
智能 技术 与 医疗 、 教 育 、 金 融 、 法 律 等 垂直 领域 的 深度 结合 ， 点 燃 了 人 们 对 大 规模 知识 
图 谐 及 在 此 之 上 的 智能 问答 和 推理 等 应 用 的 旺盛 需求 , 知识 智能 再 次 成 为 人 工 智能 领域 
的 热点 方 癌 。 


Google wh ya 
26 HH 新 闻 2 地 图 E2 设置 。 工具 
找到 约 56,400,000 条 结果 (用 时 0.32 $+) 
姚明 - 维基 百科 ， 自 由 的 百科 全 书 
https://zh.wikipedia.org/zh-hans/#taA Y 
SAR (1980 年 9 月 12 日 ~) ， 生 於 中 国 上 海 市 ， 祖 籍 江苏 省 苏州 市 吴江 区 震 泽 镇 ， 著 
宅 篮 球 运 动 遇 ， 曾 为 中 国 国 家 篮球 队 队 具 ， 曾 效力 于 中 国 篮 球 职业 联赛 (CBA) 上 
ER.. 

NEBAR% 2002F /第 1 畏 / 第 1 排名 登录 身高 : 7 英尺 5 英寸 (2.26 米 ) 
WREE: 1997 年 -2011 年 得 分 : 9,247 (0819.04) 
青年 时 民 及 CBA 生 涯 - NBA 职业 生涯 : AIC: ER 


姚明 (中 国 篮球 协会 主席 、 RARAP _ 百 度 百 科 


https:Wbaike.baidu.cornyitern 姚 明 始 了 职 

KAR (Yao Ming) ， 男 ， ym 无 党 派 人 士 ，1980 年 9 月 12 日 出 生 于 上 海 市 徐汇 源 。 并 在 中 国 篮 RAN SKE ERT ES, 维基 百科 
区 ， 相 第 江苏 省 苏州 市 吴江 区 震 泽 镇 ， 前 中 国 职业 篮球 运动 员 ， 司 职 中 锋 ， 现 任 中 F: 1980 #95120 (384), 中 华人 民 共 和 国 上 海 市 
EEH ... 身高 : 7'6" 

所 属 运动 队 : 已 退役 ”出生 地: 上 海 市 徐汇 区 BB: 18 

生涯 最 高 分 : 41 分 。 出 生日 期 : 1980 年 9 月 12 日 SRR: rS 

早年 经 历 . 职业 生涯 - NBA 数 据 . 公益 活动 配偶 : 叶莉 (结婚 时 间 : 2007 年 ) 


RK: thom, Ee 


图 1.1 谷歌 知识 图 谱 样 例 


1.1 知识 图 谱 简 介 


如 前 所 述 ,“ 知 识 图 谐 ” 本 是 谷歌 知识 搜索 功能 的 产品 名 称 , 由 于 这 个 名 字 实 在 贴切 
上 口 ,被 学 术 界 和 工业 界 广泛 使 用 ,成 为 各 类 结构 化 知识 库 的 统称 。 知 识 图 谱 ， 就 是 将 
人 类 知识 结构 化 形成 的 知识 系统 ,其 中 包含 基本 事实 、 通 用 规则 和 其 他 有 关 的 结构 化 信 
息 ， 可 用 于 信息 检索 、 推 理 决策 等 智能 任务 。 知 识 图 谱 是 人 工 智能 研究 和 智能 信息 服务 
的 基础 核心 技术 ， 能够 赋予 智能 体 精准 查询 、 深 度 理解 与 逻辑 推理 等 能 力 ， 被 广泛 运用 
于 搜索 引擎 、 问 答 系统 、 智 能 对 话 系统 及 个 性 化 推荐 等 知识 驱动 的 任务 。 
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为 了 局 效 地 储存 与 利用 结构 化 知识 ， 人 们 结合 专家 手工 标注 与 计算 机 目 动 标注 等 方 
式 ， 面 辐 开 放 领 域 和 垂直 领域 构建 了 各 种 大 规模 知识 图 谱 ， 如 WikiData 11881, Free- 
base [15], DBpedia |41, YAGO [BY 及 WordNet [133] 等 经 典 的 知识 库 。 以 WikiData 为 例 , 截至 
2019 年 年 初 , 其 已 经 包含 5 700 多 万 个 实体 。 与 此 同时 , 国内 外 各 大 互联 网 公司 也 均 有 知 
识 图 谐 产 品 , WAR (Google) 知识 图 谱 、 百 度 知心 、 搜 狗 知 立方 和 微软 (Microsoft) Bing 
Satori 等 。 

如 果 按 照 类 型 划分 , 知识 图 谱 可 以 包含 语言 知识 、 常识 知识 、 世 界 知识 、 认 知 知识 、 
专业 知识 等 。 例 如, 语言 知识 是 使 用 人 类 语言 应 当 上 共 备 的 词法 、 句法、 语义 或 语 用 等 方 
面 的 知识 , 如 WordNet, HowNet 是 典型 的 词法 知识 图 详 ; RAR AMS Re 
的 基本 知识 信息 ， 如 Cyc、ConceptNet 是 典型 的 常识 知识 图 谱 ; 世界 知识 指 的 是 现实 世 
界 中 各 实体 间 关 系 的 事实 知识 ， 前 述 WikiData, Freebase, DBpedia, YAGO 是 典型 的 世 
界 知识 图 谐 ; 认 知 知识 是 人 类 理解 世界 所 上 其 备 的 知识 ， 如 隐喻 知识 等 ; 专业 知识 则 是 各 
专业 领域 的 特定 知识 ， 如 化 学 、 生 物 、 医 疗 、 金 融 、 计 算 机 等 领域 都 有 很 多 专业 知识 图 
谐 。 当 然 , 这 只 是 非常 粗略 的 划分 ， 并 没有 严格 的 界限 , 例如，HowNet 既 包含 词法 级 语 
BAR, 也 包含 大 量 的 常识 知识 。 

知识 图 谱 的 特点 是 结构 化 ,一 般 用 三 元 组 形式 表示 不 同 元 素 间 的 复杂 关系 ， 从 而 形 
成 一 个 复杂 的 网 络 (图 谱 )。 在 本 书 中 , 我 们 主要 关注 与 目 然 语言 处 理 密切 相关 的 两 种 头 
型 知识 , 即 世 界 知 识 与 语言 知识 。 图 1.2 所 示 是 世界 知识 与 语言 知识 样 例 。 


= = = -= -= =— = — = a. 


ie æ = p l l PF t == =p ee A 


位 置 


(location) 


高 于 正常 
(GreaterThanNormal) 


世界 知识 语言 知识 
图 1.2 世界 知识 与 语言 知识 样 例 
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世界 知识 图 谱 将 世界 上 的 具象 事物 和 抽象 概念 表示 为 实体 (entity)， 将 实体 之 间 的 
联系 表示 为 天 系 (relation), 第 以 三 元 组 事实 (triple fact) 的 形式 存储 实体 与 实体 之 则 的 
关系 ， 类 似 于 万 维 网 联盟 发 布 的 资源 换 述 框 染 (Resource Description Framework, RDF). 
以 “比尔 。 六 次 是 微软 公司 创始 人 ”的 世界 知识 为 例 , 知识 图 谐 将 该 知识 储存 为 (比尔 
ZK, AMA, 微软 公司 ), 其 中 比尔 - 盖 英 称 为 首 实 体 (head entity), 微软 公司 称 为 尾 
实体 (tail entity), 创始 人 称 为 天 系 (relation)。 通 过 众多 三 元 组 构成 的 链接 , 世界 知识 图 
谱 形 成 一 张 己 大 的 网 络 , 其 中 网 络 市 点 是 所 有 的 实体 ,而 广 扩 之 间 的 连 边 表示 实体 之 间 
的 关系 。 

语言 知识 图 谱 有 很 多 不 同 的 知识 类 型 和 标注 方式 。 本 书 主要 关注 基于 义 原 的 词汇 知 
识 图 谱 HowNet。 在 HowNet F, 语言 学 家 将 语言 的 最 小 语义 单位 定义 为 义 原 (语义 原 
子 的 意思 )， 人 工 定 义 了 一 套 包含 2 000 多 个 义 原 的 集合 , 并 用 来 标注 每 个 词 的 词义 。 例 
OH, “WR” BAS aM, 分 别 是 “最 高 尽 ”(acme) M “= FABRA ACA” (vertex), 
均 可 以 用 寿 干 个 义 原 及 其 依存 关系 来 标注 表示 。 这 些 结构 化 语言 知识 , 也 可 以 用 三 元 组 
形式 表示 和 存储 , 这 些 三 元 组 构成 的 链接 能 够 形成 一 个 大 的 知识 图 谱 。 

以 Freebase、WikiData 为 代表 的 世界 知识 图 谐 和 以 HowNet、WordNet 为 代表 的 语言 
知识 图 谐 ， 过 去 已 经 在 信息 检索 、 目 然 语 言 处 理 等 领域 获得 比较 广泛 的 应 用 。 进 入 深度 
学 习 时 代 , 大 数据 及 数据 驱动 深度 学 习 技 术 成 为 推动 人 工 智 能 发 展 的 重要 动力 。 这 些 大 
规模 知识 图 谐 是 否 依然 有 用 ， 以 及 如 何 发 挥 作用 , 是 我 们 接 下 来 需要 探讨 的 重要 课题 。 


1.2 ARF YRA MEA 


现在 在 人 工 智 能 领域 ， 几乎 无 人 不 谈 深度 学 习 ,， 这 里 以 目 然 语言 处 理 的 发 展 趋势 为 
代表 来 考察 深度 学 习 的 优势 和 面临 的 挑战 。 

自然 语言 处 理 研究 兴起 于 美国 , 在 20 世纪 50 年 代 电 子 计算 机 刚刚 发 明 ， 人 们 就 提 
出 了 利用 计算 机 理解 和 处 理 人 类 语言 的 设想 。 当 时 , 美国 希望 能 够 利用 计算 机 将 大 量 俄 
语 材 料 日 动 翻译 成 呆 语 ,以 监测 苏联 的 科技 发 展 情况 。 研究 者 最 开始 受到 军事 密码 破 详 
思想 的 局 发 ,认为 不 同 语言 不 过 是 对 “相同 语义 ”的 不 同 编 码 而 已 ， 因 此 可 以 像 译 码 技 
术 破 译 密码 那样 来 “破解 ” 这些 语 言 。1954 年 ， 美 国 乔 治 敦 大 学 和 IBM 公司 成 功 将 超 
过 60 句 俄语 目 动 翻译 成 英语 , 媒体 纷纷 报道 认为 这 是 一 个 已 大 的 进步 , 美国 政府 备 受 或 
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舞 ,， 加 大 了 对 目 然 语 言 处 理 研 究 的 资助 。 当 时 的 研究 者 也 上 自信 地 认为 只 要 制定 好 各 种 翻 
译 规则 , 在 3~5 年 内 就 能 够 完全 解决 自动 翻译 问题 .然而 , 事与愿违 , 理解 人 类 语言 要 远 
比 破译 密码 复杂 得 多 , 研究 进展 异常 缓慢 ，1966 年 一 份 报告 表明 ， 自 然 语言 处 理 经 过 十 
多 年 的 研究 结果 远 未 达到 预期 因此 支持 资金 急剧 下 降 , 使 目 然 语 言 处 理 特别 是 机 器 翻 
译 陷入 长 达 20 年 的 低潮 ， 这 也 标志 看 基于 规则 的 理性 主义 思想 在 目 然 语 言 处 理 领 域 的 

直到 20 世纪 90 年 代 , 随 看 电子 计算 机 的 计算 能 力 的 飞速 提高 和 制造 成 本 的 大 幅 下 
Re, 研究 者 重新 关注 目 然 语 言 处 理 这 个 极 宇 挑 战 的 领域 。 此 时 研究 者 已 经 意识 到 简单 语 
言 规则 的 堆砌 无 法 实现 对 人 类 语言 的 真正 理解 。 同 时 人 们 发 现 , 通过 对 大 规模 文本 数据 
的 目 动 学 习 和 统计 , 能够 更 好 地 解决 自动 翻译 等 自然 语言 处 理 任 务 。 这 就 是 统计 上 自然 语 
言 处 理 , 标志 着 基于 统计 的 经 验 主义 思想 在 自然 语言 处 理 领域 的 兴起 。 

总 绪 过 去 ， 人 们 主要 探索 了 两 种 目 然 语 言 处 理 的 思想 , 一 种 是 基于 规则 的 理性 主义 
思想 ; 另 一 种 是 基于 统计 的 经 验 主 义 思 想 。 理 性 主义 思想 认为 ， 人 类 语言 主要 是 由 语言 
规则 来 产生 和 描述 的 ， 只 要 将 人 类 语言 规则 整理 出 来 ,就 能 够 理解 人 类 语言 并 实现 语言 
翻译 等 各 种 目 然 语 言 处 理 任 务 。 经 验 主 义 思 想 则 认为 , 可 以 从 大 规模 语言 数据 中 目 动 学 
习 总 绪 语 言 模型 ， 只 要 有 足够 多 的 用 于 统计 学 习 的 语言 数据 ,就 能 够 理解 人 类 语言 。 

近 几 十 年 来 , 互联 网 的 普及 在 各 领域 积累 下 海量 的 唾 手 可 得 的 大 数据 , 计算 机 的 存 
储 和 计算 能 力也 在 摩尔 定律 的 支配 下 日 新 月 异 , 为 基于 统计 的 经 验 主义 思想 提供 了 肥沃 
的 发 展 土壤 。 深 度 学 习 则 是 统计 学 习 方 法 的 最 新 顶峰 。 深度 学 习 是 人 工 神经 网 络 的 复兴 ， 
在 大 数据 和 计算 能 力 的 支持 下 焕发 了 惊人 的 能 量 。 与 传统 统计 和 学 习 方 法 相 比 , 深度 学 习 
有 以 下 两 个 突出 特 操 。 

(1) 分 布 式 表示 。 在 深度 学 习 中 , 目 然 语言 处 理 的 对 象 , 如 词 、 句 等 语言 单元 的 语义 
信息 ， 都 以 分 布 式 表示 (distributed representation ) 的 方式 进行 处 理 ， 即 表示 为 实 值 、 稠 
密 、 低 维 问 量 。 这 相当 于 将 语言 单元 映射 到 一 个 低 维 四 量 空 间 中 ,在 这 个 空间 中 ， 各 种 
元 素 的 距离 代表 它们 之 间 的 语义 关系 ,距离 越 近 就 表示 语义 越 相 近 。 深 度 学 习 技 术 可 以 
通过 大 规模 文本 数据 目 动 学 习 这 些 语言 单元 的 癌 量 表示 ,提供 了 非常 广阔 的 参数 空间 ， 
可 以 习 得 目 然 语言 中 的 复杂 语义 模式 。 传统 目 然 语言 统计 模型 则 主要 依赖 以 学 词 为 起 斥 
的 符号 表示 ， 如 词 袋 模型 (bag-of-words model) 及 其 背后 的 独 热 表示 (one-hot represen- 
tation) 思想 , 它们 均 假设 所 有 词 之 间 是 语义 独立 的 , 极 大 地 限制 了 传统 模型 的 语义 建 模 
能 力 。 
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(2) 深层 染 构 。 深 度 学 习 的 为 外 一 个 强大 的 原因 是 其 深层 染 构 ， 无 论 是 关 积 促 经 
网 络 (CNN) PSN SAH, We TAA ZR RNN) 中 的 随 序 列 循环 的 状 
态 层 , 这 些 深 层 架 构 为 自动 学 习 上 自然 语言 及 各 种 任务 的 复杂 语义 模式 提供 了 强大 的 建 模 
能 力 。 

H 2013 年 word2vec 问世 以 来 ,深度 学 习 在 短 短 几 年 时 间 里 履 址 目 然 语 言 处 理 的 各 
类 重要 任务 , 在 信息 检索 、 机 器 翻译 、 智 能 问答 、 目 动 对 话 等 领域 均 取 得 了 显著 进展 。 然 
而 ,， 随 着 更 加 深入 的 探索 人 们 发 现 深度 学 习作 为 数据 驱动 的 经 验 主 义 方法 , 仍然 存在 
很 多 局 限 ， 面 临 诸多 挑战 。 其 中 最 致命 的 是 ,深度 学 习 的 鲁 棒 性 和 可 解释 性 较 差 : 有 学 
者 发 现 ,针对 一 个 深度 学 习 模型 ， 可 以 很 容易 地 精心 构造 一 些 对 抗 样 例 (adversarial ex- 
ample) 来 欺骗 该 模型 。 最 单 见 的 例子 是 , 对 一 幅 主 体 为 熊猫 的 图 片 , 通过 添加 非 音 少量 
的 噪声 ， 虽 然 对 人 类 而 言 这 幅 图 与 原 图 几乎 一 模 一 样 ， 深 度 学 习 模 型 会 将 其 错误 地 划分 
为 其 他 类 别 。 即 使 人 们 做 出 很 多 尝试 ， 如 提出 生成 式 对 抗 网 络 (GAN) 以 及 其 他 数据 增 
广 技术 ,， 但 仍然 无 法 彻底 解决 深度 学 习 的 鲁 棒 性 和 可 解释 性 问题 。 归 根 到 确 ， 深 度 学 习 
仍然 是 对 已 有 数据 的 拟 合 ， 缺 乏 对 数据 的 真正 理解 能 力 ， 因 此 只 能 做 到 机 械 地 “ 举 百 反 
一 ”， 而 不 能 像 人 类 那样 “举一反三 ”。 最 近 兴 起 的 零 次 / 少 次 学 习 〈zeroy/few shot learning) 
BLES JIA PRESS “AR R=” HB» 

如 何 才 能 让 计算 机 (或 深度 学 习 ) 具备 理解 与 思考 能 力 呢 ? 我 们 应 当 参 考 人 脑 的 工 
ERN. 仍然 以 目 然 语言 理解 为 例 , 当 人 们 看 到 一 句 话 “ 这 个 夏天 就 像 兹 和 穹 一 样 ”", 会 产 
生 哪些 理解 呢 ? 如 图 1.3 所 示 , 假如 此 人 母语 是 英语 , HAANEN, 如 果 我 们 给 他 一 本 
中 英文 词典 和 语法 书 (注意 这 代表 某 种 类 型 的 语言 知识 )， 则 他 可 以 借助 这 些 语言 知识 ， 
很 容易 地 将 这 个 结构 简单 的 句子 翻译 成 英语 ; 此 人 还 需要 利用 已 有 的 常识 知识 和 认 知 知 
识 , 才能 理解 将 “夏天 ” 比 作 “ 燕 党 ”, 是 形容 这 个 夏天 很 热 ; 如 果 此 人 掌握 一 些 关 于 现实 
的 世界 知识 , 则 他 还 会 想到 用 某 些 品牌 的 空调 或 风扇 帮助 降温 ; 如 果 此 人 还 有 一 些 金融 
领域 的 行业 知识 ， 则 他 就 能 推测 这 个 夏天 空调 大 卖 ， 空调 厂商 效益 提升 ， 可 以 提前 做 投 
资 布局 。 

即使 现 有 自然 语言 处 理 服务 可 以 处 理 的 简单 样 例 ， 同 样 面 临 类 似 的 问题 。 例 如 ， 用 
户 检索 “北京 到 上 海 的 高 铁 ” 时 ， 商 业 搜索 引擎 可 以 匹配 “北京 ”上海 ”“ 吉 铁 ”等 实体 ， 
匹配 预先 定义 好 的 模板 ， 然 后 根据 该 模板 对 应 指令 碍 询 后 台数 据 库 返回 相关 和 车 次 信息 。 
这 像 一 个 事先 编排 好 的 操作 流程 , 一 切 按 照 剧 本 来 运行 , 一 旦 超出 事先 定义 的 范围 就 束 
手 无 策 。 而 人 类 看 到 “北京 到 上 海 的 高 铁 2， 则 会 调动 各 种 类 型 的 知识 来 实现 对 这 人 句 话 的 
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高 铁 是 连接 北京 和 和 上海 的 最 繁忙 的 铁路 线 。 人 类 永远 无 法 像 搜 索引 擎 那样 记 住 繁多 的 京 
沪 高 铁 车 次 , 却 能 够 利用 有 生 以 来 不 断 积累 的 知识 ,轻而易举 地 理解 这 人 句 话 在 现实 世界 
中 的 意义 , 而 不 仅仅 用 来 找到 所 有 和 孙 沪 高 铁 车 次 而 已 。 只 有 真正 理解 这 句 话 在 现实 世界 
中 的 全 部 意义 ， 才 是 真正 的 智能 ; 而 专门 为 完成 某 种 特定 任务 (搜索 车 次 ) 研制 的 系统 
或 算法 ,， 则 无 法 做 到 随机 应 变 。 


室 调 厂商 股票 可 能 大 涨 
介 行业 知识 
我 们 需要 想 办 法 降温 
qh 世界 知识 
这 个 房间 好 热 
人 常识 知识 
The summer is like a steamer 
介 语言 知识 
这 个 夏天 就 像 项 笼 一 样 
图 1.3 对 同一 句 话 “这 个 复 天 融 像 燕 觉 一样 "， 在 不 同类 型 的 知识 文 持 下 ， 实 现 不 同 程度 的 理解 


可 以 看 到 ， 即 使 短 短 的 一 句 话 ， 只 有 在 各 种 类 型 知识 的 文 持 下 ， 人 们 才能 进行 不 同 
层次 的 理解 。 这 些 知识 是 人 类 对 包括 目 身 在 内 的 外 部 世界 的 认 知 ， 如 同 Palm ACH AAS 
夫 。 霍金 斯 在 他 的 On mnteliigence 出 中 所 描述 的 “世界 模型 ", 是 人 脑 对 这 个 世界 形成 的 理 
性 认 知 模型 。 只 有 将 日 然 语言 是 入 这 个 “世界 模型 ”中 , 才能 实现 真正 的 理解 。 

对 于 数据 驱动 的 深度 学 习 技 术 而 言 也 是 如 此 ,如果 没有 相关 知识 所 结 成 的 “世界 模 
型 ”的 支持 , 那么 深度 学 习 搁 术 只 能 从 数据 中 机 械 地 学 习 完 成 特定 任务 的 语义 模式 ， Bh 
不 具备 角 棒 性 和 可 解释 性 ， 也 无 法 明日 言 外 之 意 , 通晓 弦 外 之 音 ， 实 现 对 语言 的 深层 理 
解 与 推理 。 因 此 ,我 们 认为 要 想 实现 鲁 棒 可 解释 的 人 工 智能 和 目 然 语 言 处 理 能 力 ， 需 要 
各 种 类 型 知识 图 谐 的 文 持 。 


四 作 者 几 年 前 有 洗 参 与 翻译 过 该 书 ， 中 文 详 名 为 《智能 时 代 少 。 
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过 去 的 实践 表明 ， 数据 驱动 的 经 验 主义 思想 是 实现 数据 智能 的 可 行路 径 ， 以 深度 学 
习 为 代表 的 经 验 主义 思想 ， 仍 然 探索 如 何 更 充分 地 从 大 规模 数据 中 学 习 和 挖 据 有 用 信 
ko 例如，2018 年 提出 的 BERT 预 训练 语言 模型 ,就 是 利用 大 规模 无 标注 文本 数据 
学 习 一 般 的 语言 知识 ，2013 年 word2vecll37 也 是 类 似 工 作 的 典范 , 无 疑 它们 对 整个 自然 
语言 处 理 领域 都 产生 了 非常 大 的 影响 。 近 年 来 , 机 器 翻译 领域 也 在 探索 如 何 构建 无 监督 
机 佛 翻 译 模 型 ,也 更 充分 地 利用 了 无 监督 数据 的 做 法 。 这 些 痢 属于 数据 驱动 的 方法 。 如 
何 更 充分 地 挖掘 数据 的 价值 ,无论 是 有 标注 数据 、 弱 标注 数据 ， 还 是 无 标注 数据 ， 它 们 
都 是 数据 驱动 方法 的 重要 命题 ,仍然 有 很 多 开放 问题 等 待 解决 , 未 来 还 会 有 更 多 的 学 习 
机 制 等 待 探索 。 

如 前 所 述 , 单 从 数据 学 习 无 法 实现 有 理解 能 力 的 人 工 智 能 。 通 往 鲁 棒 可 解释 的 人 工 
智能 之 路 ,还 需要 人 类 知识 的 指导 。 为 此 , 我 们 需要 探索 如 何 充 分 发 挥 实现 经 验 主义 思 
想 和 理性 主义 思想 的 优势 ,融合 数据 智能 和 知识 智能 。 知 识 图 谱 是 理性 主义 思想 的 最 新 
成 功 实践 。 以 目 然 语言 处 理 为 例 ,， 我 们 的 目标 就 是 ， 更 好 地 将 结构 化 知识 图 谱 融 入 上 自然 
语言 处 理 深度 学 习 模型 中 。 

实现 深度 学 习 与 知识 图 谱 的 融合 并 非 轻 而 易 举 , 需要 至 少 解 决 以 下 儿 个 关键 问题 。 

(1) 知识 表示 的 问题 。 深 度 学 习 末 用 分 布 式 表示 ,而 知识 图 谱 采 用 符号 表示 ， 这 两 
种 表示 方案 难 分 轩 轻 , 各 有 天 地 。 如 何在 深度 学 习 中 充分 利用 大 规模 知识 图 谱 ， 需 要 解 
决 知识 表示 的 问题 。 

(2) 知识 获取 的 问题 。 知 识 图 谐 形式 丰富 多 样 ， 根据 历史 实践 经 验 ， 完 全 依靠 手工 
标注 费时 费力 , 既 极 大 地 限制 知识 图 谱 的 规模 扩 增 , 也 无 法 有 效 保证 知识 图 谱 的 内 在 一 
致 性 和 可 计算 性 。 如 何 从 互联 网 大 规模 的 结构 化 数据 、 半 结构 数据 和 无 结构 数据 中 上 自动 
获取 知识 ， 辅 以 少量 人 工 校 验 ， 是 大 规模 知识 图 谱 构 建 的 必由之路 ,因此 需要 探索 知识 
自动 获取 的 技术 。 

(3) 知识 计算 的 问题 。 在 面向 大 规模 知识 图 谱 建 立 了 完善 的 知识 表示 后 , 需要 系统 
探索 如 何 面 同 不 同 目 然 语言 处 理 任 务 和 深度 学 习 模 型 , 将 知识 合理 地 骨 入 与 融合 ,实现 
知识 指导 的 自然 语言 理解 。 

在 过 去 几 年 中 , 我 们 系统 探索 了 对 上 自然 语言 理解 至 关 重 要 的 两 类 知识 图 谱 即 语言 知 
识 和 世界 知识 的 表示 学 习 、 自 动 获取 和 计算 应 用 方法 。 接 下 来 , 我 们 以 这 两 类 知识 为 代 


表 , 分 别人 简单 介绍 其 在 不 同方 面 的 研究 问题 与 解决 思路 。 


1.3.1 ”知识 的 表示 学 习 


大 规模 知识 图 谱 是 人 类 理性 知识 的 总 结 , 主要 以 符号 形式 进行 表示 和 存储 。 例如, H 
界 知识 图 谐 采 用 三 元 组 形式 存储 实体 的 关系 事实 , 无 论 是 实体 还 是 关系 ,部 采 用 独 一 无 
二 的 符号 来 进行 标识 。 原始 符号 表示 的 大 规模 知识 图 谱 在 计算 利用 上 面临 以 下 挑战 。 

(1) 计算 效率 低下 : 基于 图 结构 的 知识 表示 虽然 简洁 直观 , 但 是 在 利用 知识 图 谱 进 
行 检 索 与 多 步 推理 时 , 第 党 需要 设计 专门 的 图 算法 以 完成 任务 。 这 些 图 算法 往往 计算 复 
ARE Bim, 在 目前 的 大 规模 知识 图 谱 上 难以 快速 运行 , 旦 难以 拓展 至 其 他 情况 。 

(2) 数据 黎 芯 性 强 : KAUR A Al te PSE ASR AEE ES Ra, AR 
多 实体 只 存在 着 极 少 数 的 关系 与 之 相连 。 对 这 些 稀疏 的 实体 和 关系 , 往往 很 难 有 效 理解 
与 推理 。 

为 了 解决 计算 效率 低下 与 数据 黎 朴 性 强 这 两 个 问题 , 近年 来 人 们 提出 知识 表示 学 习 
(Knowledge Representation Learning, KRL) 的 技术 方案 , 并 被 广泛 研究 与 运用 。 知 识 表 示 
学 习 基 于 分 布 式 表示 [al 的 思想 , 将 实体 (或 关系 ) 的 语义 信息 映射 到 低 维 稠密 实 值 的 
回 量 空 间 中 ， 使 得 语义 相似 的 两 个 对 象 之 间 的 距离 也 相近 。 而 传统 对 知识 的 符号 表示 其 
实 相 当 于 独 热 表示 ， 即 将 知识 表示 成 一 个 长 回 量 ,， 只 有 该 知识 对 应 的 特定 维度 非 零 ， 而 
其 他 所 有 维度 都 为 零 。 与 独 热 符号 表示 相 比 ,知识 的 分 布 式 表示 有 以 下 优点 。 

(1) 分 布 式 表示 和 学习 到 的 是 低 维 回 量 。 这 使 得 实体 与 天 系 之 则 的 语义 联系 能 够 在 低 
维 空间 中 得 以 高 速 计 算 , 显著 提高 计算 效率 。 

(2) 独 热 表 示 基 于 所 有 对 象 相 互 独立 的 假设 , 所 有 问 量 之 间 两 两 正 交 , BRI KE 
对 象 之 间 的 相似 及 关联 信息 。 而 分 布 式 表示 则 能 通过 稠密 低 维 癌 量 之 闻 的 相似 度 计 算 表 
达 对 和 象 之 间 的 关系 , BORA A T AGE i ia tr RN Ia) el 

(3) 分 布 式 表示 能 够 将 多 源 异 质 信 息 映 射 到 同一 语义 空间 中 , 建立 多 源 跨 模 态 的 信 
恩 交 互 ， 且 分 布 式 表示 也 能 更 便捷 地 融入 深度 学 习 的 模型 框架 中 。 近 年 来 , 知识 表示 学 
习 在 知识 图 谐 补 全 、 知 识 获取 、 融 合 与 推理 等 任务 上 被 广泛 运用 ， 显 车 地 提高 了 知识 张 
动 型 应 用 的 性 能 。 

基于 知识 表示 学 习 的 思想 , 我 们 探索 了 一 矢 融 合 知 识 的 统一 语义 表示 框架 , 如 图 1.4 
所 示 。 我 们 选取 了 与 文本 理解 最 密切 相关 的 语言 知识 和 世界 知识 两 种 知识 图 谱 , 通过 分 
布 式 表示 学 习 的 方式 ， 将 海量 文本 、 语 言 知识 和 世界 知识 映射 到 统一 的 语义 表示 空间 ， 
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实现 数据 与 知识 的 融合 计算 。 


文本 语义 
表示 学 习 一 


WWW 


网 络 空间 


认 知 空间 
图 1.4 融合 知识 的 统一 语义 表示 框 淋 


在 融合 语言 知识 的 语言 单元 表示 学 习 方 面 , 我 们 探索 了 将 WordNet 词义 知识 、HowNet 
义 原 知识 等 融入 不 同 语言 单元 的 表示 学 习 ， 实 现 更 加 重 棒 有 效 的 语义 表示 。 在 世界 知识 
表示 学 习 方 面 ， 我 们 系统 拧 索 了 考虑 各 种 外 部 信息 来 握 升 知识 表示 学 习性 能 的 可 行 性 ， 
如 考虑 复杂 关系 类 型 , 考虑 关系 路 径 , 考虑 实体 描述 信息 , SAAS. BES RAE 
息 ， 考 虑 实体 图 像 信 息 等 。 通 过 充分 利用 世界 知识 图 谐 和 实体 描述 、 类 别 和 图 像 等 外 部 
信息 , 我 们 实现 了 融 效 知识 表示 学 习 ， 建立 了 低 维 语义 表示 空间 与 世界 知识 的 关联 。 多 
粒度 语言 单元 表示 、 融 合 语言 知识 的 语言 单元 表示 、 世 界 知识 表示 形成 了 一 套 面 网 目 然 
语言 处 理 的 统一 语义 表示 体系 ,能够 有 力 支 持 自 然 语 言 的 深度 学 习 与 理解 。 


1.3.2 ”知识 的 自动 获取 


随 独 对 这 个 世界 探索 的 不 断 扩 展 与 深入 ， 人 类 知识 日 新 月 异 。 过 去 ， 人 们 主要 依赖 
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专家 手工 标注 知识 库 , 如 Cyc. WordNet. HowNet 等 ,虽然 品质 精 展 , 但 是 在 知识 图 谱 的 
规模 、 一 致 性 和 可 计算 性 方面 面临 巨大 挑战 。 近 年 来 ， 人们 探索 出 一 条 从 互联 网 大 规模 
数据 中 上 自动 获取 知识 的 技术 路 线 , 如 现在 搜索 引 敬 产品 中 广泛 应 用 的 大 规模 世界 知识 图 
谱 , 就 是 自动 获取 与 人 工 校 验 结合 产生 的 杰作 。 

以 世界 知识 为 例 ， 人 们 探索 了 从 互联 网 各 种 类 型 数据 获取 实体 关系 事实 的 方法 ， 如 
结构 化 的 表格 和 列表 数据 、 半 结构 的 维基 百科 页 面 , 以 及 无 结构 的 文本 数据 等 。 其 中 , 如 
何 从 无 结构 文本 数据 中 目 动 获取 这 些 结构 化 知识 是 最 其 挑战 的 任务 , 而 且 由 于 文本 数据 
是 人 类 传递 信息 和 知识 的 主要 载体 , 该 任务 对 构建 世界 知识 图 谱 也 全 关 重 要 。 

关系 抽 取 是 从 文本 中 目 动 获取 实体 间 关 系 事实 的 代表 任务 。 该 任务 的 目标 是 , 给 定 
一 个 包含 两 个 实体 的 句子 , 从 中 抽取 出 这 两 个 实体 之 间 的 关系 。 例如 , 给 定 两 个 实体 “ 比 
尔 。 盖 次 ”和 “微软 公司 ”，， 以 及 包含 这 两 个 实体 的 句子 “比尔 。 六 次 建立 并 运营 微软 公 
司 ”, 我 们 可 以 根据 该 句 的 语义 信息 , 利用 句子 分 类 技术 确定 这 两 个 实体 之 间 是 “创立 者 ， 
关系 。 深 上 度 学 习 技 术 是 目前 解决 关系 抽取 的 最 好 方法 , 图 1.5 所 示 了 束 是 采用 卷 积 神经 网 


非 线 性 层 输出 向 量 
激活 操作 
池 化 层 
卷 积 层 
卷 积 操作 
7 词 向 量 
癌 量 表示 
位 置 向 量 


输入 句子 
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络 (CNN) 对 句子 语义 进行 编码 表示 用 作 分 类 特征 的 关系 抽取 示意 图 。 当 然 这 里 还 可 以 
选用 LSTM、Transformer 等 其 他 深度 学 习 模 型 。 

关系 抽取 作为 典型 的 有 监督 分 类 任务 ， 需 要 大 规模 标注 数据 来 训练 深度 学 习 模型 。 
由 于 为 大 规模 知识 手工 标注 训练 数据 费时 费力 , 人 们 提出 利用 已 有 知识 图 谱 目 动 标注 大 
规模 训练 数据 的 思想 , 这 种 思想 被 称 为 远程 监督 ， 该 思想 假设 包含 某 个 实体 对 的 所 有 名 
子 都 能 够 反映 该 实体 对 在 知识 图 谱 中 的 关系 。 如 图 1.6 所 示 , 远程 监督 认为 同时 包含 “ 比 
尔 。 盖 茨 ” 和 “微软 公司 ”的 3 个 句子 都 能 够 反映 “创立 者 ”的 关系 , 会 被 自动 标注 为 该 


关系 的 正 例 样本 , 作为 关系 分 类 训练 数据 。 


a 创立 者 
广 Freebase 


AMA 
(比尔 SX, oo 


mas [Et | [mars | 
< te [2220 | x 
(ie i || amv eR rere | [aaa | 


图 1.6 ”远程 监督 目 动 构建 关系 抽取 训练 数据 集 


但 是 远程 监督 会 不 可 避免 地 引入 噪声 标注 ， 例 如 图 1.6 中 第 二 个 句子 的 意思 是 “ 比 
尔 。 凋 蒋 ” 将 从 “微软 公司 ”退休 , 无 法 反映 实体 之 间 存 在 “创立 者 ”的 关系 ,这些 噪声 
训练 数据 会 显著 影响 关系 抽取 深度 学 习 模 型 的 性 能 。 此 外 ， 如何 充分 利用 已 有 知识 图 谱 
和 文本 数据 进行 关系 抽取 ,如 何 充 分 利用 多 语言 文本 数据 进行 关系 抽取 ,都 是 关系 抽取 
深度 学 习 模 型 面临 的 挑战 性 问题 。 

为 了 解决 这 些 挑战 性 问题 , 我 们 提出 利用 注意 力 机 制 、 对 抗 训练 机 制 等 技术 来 提升 
关系 抽取 深度 学 习 模 型 的 性 能 。 例 如 ,提出 句 级 注意 力 机 制 缓解 远程 监督 的 噪声 标注 问 
题 ， 提 出 鉴 语 言 注 意 力 机 制 综合 利用 多 语言 数据 进行 关系 抽取 , 提出 知识 注意 力 机 制 综 
合 利 用 己 有 知识 图 谐 和 文本 进行 关系 抽取 ， 等 等 。 综 合 这 些 改进 方案 ,我 们 提出 的 关系 
抽取 深度 学 习 框 染 , 能够 面 问 典型 数据 信息 目 动 获取 融 质 量 的 结构 化 知识 , 通过 进一步 
的 知识 融合 和 校 验 , 可 用 于 构建 和 扩展 大 规模 知识 图 谱 。 
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与 上 述 世 界 知识 的 目 动 获取 类 似 , 我 们 也 可 以 利用 深度 学 习 技术 辅助 进行 语言 知识 
的 目 动 获取 。 我 们 面 辣 HowNet 的 义 原 知识 ， 也 探索 了 一 系列 的 技术 ,综合 利用 词 的 内 
部 汉字 、 外 部 上 下 文 及 词典 定义 等 信息 ,进行 词汇 的 义 原 目 动 了 预测 , 可 用 于 构建 和 扩展 
义 原 知识 图 详 。 我 们 将 在 本 书 中 分 别 介绍 世界 知识 和 语 诗 知识 的 目 动 获取 技术 。 


1.3.3 ”知识 的 计算 应 用 


在 构建 完成 大 规模 知识 图 谱 后 , 我 们 关心 如 何在 目 然 语言 处 理 各 种 任务 中 充分 利用 
这 些 知识 。 在 进入 深度 学 习 时 代 之 前 , 这 些 知识 图 谱 往 往 采 用 以 下 使 用 方式 。 

CLD) 作为 信息 资源 。 以 世界 知识 图 证 为 例 ， 商业 搜索 引擎 会 将 知识 图 雍 作 为 展示 信 
A) ORY, 根据 用 户 查 询 提 及 的 实体 名 称 ， 展示 相 关 实 体 的 结构 化 信息 , 提升 用 户 
的 检索 体验 。 

(2) 作为 数据 特征 。 以 语言 知识 图 谐 为 例 , 知识 图 谱 中 标注 的 词汇 知识 可 以 为 词汇 
增加 额外 的 特征 信息 ,并 作用 于 情感 分 析 、 文 本 分 类 等 相关 的 自然 语言 处 理 任务 上 。 

(3) 利用 网 络 结构 。 以 世界 知识 图 谐 为 例 , 可 以 利用 网 络 结构 完成 问答 任务 , 例如， 
回答 诸如 “ 梁 局 超 的 儿子 的 妻子 是 谁 ?” 这 样 需 要 在 知识 图 谱 中 进行 多 步 跳 转 的 问题 ; 也 
可 以 利用 网 络 结构 建立 不 同 关系 之 间 的 推理 规则 , 例如 ， 发现“ 儿子 的 儿子 ”是 “朱子” 
这 样 的 推理 规则 ,可 以 用 来 自动 获取 新 的 知识 ; 也 可 以 利用 网 络 结构 ， 如 最 短路 径 等 计 
算 不 同 节点 之 间 的 相似 度 ; 等 等 。 可 以 看 到 , 过 去 由 于 受到 知识 图 谱 表 示 与 存储 的 限制 ， 
只 能 基于 离 做 符号 的 形式 进行 使 用 。 

大 规模 知识 图 谱 是 实现 自然 语言 深层 理解 的 重要 基础 ， 因 此 我 们 认为 ,在 知识 表示 
学 习 等 新 兴 技 术 的 文 持 下 , 我 们 可 以 在 目 然 语言 处 理 深 度 学 习 模 型 中 找到 大 规模 知识 图 
谱 更 广阔 的 应 用 天 地 。 我 们 可 以 充分 利用 知识 图 谐 为 大 规模 文本 中 提 及 的 词汇 和 实体 提 
供 丰 晶 的 外 部 信息 ,在 探索 改进 深度 学 习 的 和 鲁 棒 性 、 可 解释 性 、 弱 标注 学 习 、 少 次 学 习 
等 能 力 的 过 程 中 发 挥 关 键 作 用 。 近 年 来 , 我 们 在 语言 模型 、 信 息 检 索 、 关 系 抽取 、 实 体 分 
R. PE. ATMS. WA RSA Aw HLS LRA ST RAR ASRS 
习 拉 本 融合 的 可 行 性 技术 方案 ,提出 了 一 套 知 识 指导 的 目 然 语言 处 理 框 架 , 如 图 1.7 所 
示 。 在 本 书 中 , 我 们 将 面向 世界 知识 和 语言 知识 两 种 类 型 的 知识 图 谱 , 分 别 介 绍 融 入 深 
BESO RANA AS 
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知识 指导 的 目 然 语 言 处 理 框 染 


深度 学 习 理 论 与 方法 


语言 知识 库 无 结构 文本 ERIRE 
图 1.7 知识 指导 的 自然 语言 处 理 框架 


1.4 ABA 


本 书 第 1 章 绪 论 整 体 曾 述 知 识 图 讶 和 深度 学 习 的 研究 背景 和 相关 概念, 介绍 了 新 时 
期 深度 学 习 面 临 的 关键 挑战 ， 以 及 将 知识 图 谐 与 深度 学 习 深 度 融 合 的 重要 县 义 和 主 要 研 
究 问 题 。 

本 书 正文 包括 两 大 部 分 : 本 书 第 1 篇 包括 第 2 章 到 第 4 章 ， Eh [HID Freebase 为 
代表 的 世界 知识 图 谐 ， 介 绍 世 界 知识 的 表示 学 习 、 目 动 获取 与 计算 应 用 技术 。 本 书 第 二 
篇 包括 第 5 章 到 第 7 章 , 主要 面向 以 HowNet 为 代表 语言 知识 图 谱 , 介绍 语言 知识 的 表 
示 学 习 、 目 动 获 取 与 计算 应 用 技术 。 每 个 章节 都 会 提供 必要 的 研究 表 景 和 相关 工作 介绍 ， 
而 主体 内 容 是 介绍 我 们 在 这 些 研究 问题 上 的 研究 成 果 与 思考 。 

在 最 后 一 章 即 第 8 Ee, 我 们 对 知识 图 谱 与 深度 学 习 融 合 的 未 来 发 展 方 站 进行 了 总 结 
和 展望 , 希望 引起 更 多 学 者 的 兴趣 ,共同 探索 这 个 充满 未 知 和 希望 的 研究 方 同 。 


1.5 本 章 总 结 


我 们 认为 , 深度 学 习 和 知识 图 谱 在 未 来 将 呈现 一 个 不 断 互相 增强 、 共同 发 展 的 态势 。 
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如 图 1.8 Prax, 一 方面 , 深度 学 习 技 术 的 快速 及 展 , 使 得 从 无 结构 文本 目 动 抽取 实体 关系 
等 结构 化 知识 的 性 能 显著 提升 ,为 大 规模 知识 图 谱 的 不 断 完善 提供 支持 ; 男 一 方面 ， 知 
识 表 示 学 习 技 术 的 兴趣 与 成 熟 , 为 将 知识 融入 深度 学 习 框 架 提供 了 可 行 性 方案 , 能 够 进 
一 步 提升 深度 学 习 技 术 的 重 棱 可 解释 能 力 , 也 有 助 于 帮助 深度 和 学习 拉 术 克服 远程 监督 的 
噪声 标注 问题 及 长 尾 分 布 数 据 的 少 次 学 习 问 题 。 

可 以 看 到 ,深度 学 习 和 知识 图 雍 的 进步 都 会 促进 对 方 的 进步 ,两 痢 发 展 形成 互利 共 
生 的 技术 体系 ， 就 如 同 巨 人 的 双 脚 一 样 ， 互 为 支撑 ,协同 进退 ， 共 同文 持 人 工 智能 返回 
鲁 棒 可 解释 的 远大 目标 。 


数 识 表示 
据 pe Bl oe 

HK 

动 


“ook wt RS 


图 1.8 ”深度 学 习 与 知识 图 谱 协 同 发 展示 意图 


世界 知识 图 谱 将 现实 世界 中 的 具象 事物 与 抽象 概念 表示 为 实体 , 将 实体 之 间 的 联系 
表示 为 关系 ， 人 a) ae ae ean ele eee 
伴随 看 量 
WR EE 人 
增长 这 一 现象 而 来 的 便 是 如 何 对 这 些 知 识 进行 体系 化 的 学 习 、 获取 及 应 用 的 问题 

千本 篇 中 ， 我 们 将 就 此 展开 ， 从 世界 知识 的 表示 学 习 、 目 动 获取 、 计 算 应 用 3 个 
角度 对 相关 领域 的 研究 进行 梳理 ， 并 对 其 中 的 关键 性 问题 给 出 我 们 的 探索 与 符 试 。 具 体 
来 说 : 

。 世界 知识 的 表示 学 习 关注 研究 世界 知识 图 谱 抽 象 过 程 中 所 面临 的 计算 复杂 度 与 


数据 稀 芷 性 问题 ,通过 算法 将 知识 图 谱 嵌 入 低 维度 连续 空间 之 中 , 以便 计算 机 对 
知识 图 谱 进 行 理解 与 操作 。 


。 世界 知识 的 目 动 获取 关注 构建 高 效 的 知识 获取 系统 ， 以 便 从 以 和 目 由 文本 为 中 心 
ea 


知识 的 重要 作用 。 
上 述 三 个 部 分 内 容 将 在 后 续 章 节 中 详细 介绍 。 


5D ie 
世界 知识 的 表示 学 习 


通过 挖掘 现实 文本 中 的 实体 与 关系 信息 , 我 们 能 够 将 世界 知识 组 织 成 结构 化 的 知识 
网 络 , 诸如 Freebase 15l, DBpedia 41, YAGOI!88] 等 大 规模 的 世界 知识 图 谱 理 含 着 大 量 结 
构 化 世界 知识 。 能够 利用 这 些 丰 富 的 结构 化 信息 将 有 助 于 我 们 在 知识 驱动 下 更 好 地 完成 
各 种 场景 下 的 具体 任务 。 但 是 ,正如 我 们 在 前 文 提 到 的 那样 , 采用 传统 的 特征 提取 方法 
来 处 理 知识 图 详 将 会 面临 计算 效率 低 与 结构 稀 玖 等 问题 , 这 将 在 很 大 程度 上 影 啊 知 识 图 
谱 在 具体 任务 场景 上 的 部 彰 与 使 用 。 因 此 , 为 了 能 够 将 知识 图 谱 中 丰富 的 结构 化 信息 运 
用 到 下 游 应 用 中 , 对 知识 图 谱 进 行 表示 学 习 ， 并 进一步 得 到 图 谱 中 实体 与 关系 的 低 维 秽 
密 问 量 表示 是 十 分 必要 的 。 本 章 将 主要 介绍 世界 知识 图 谐 的 表示 学 习 方 法 。 

世界 知识 表示 的 核心 在 于 对 世界 知识 图 详 中 的 实体 与 关系 进行 表示 , 并 能 够 通过 表 
示 问 量 来 捕捉 实体 与 关系 之 间 的 关联 。 当 下 已 有 不 少 模 型 对 世界 知识 图 谱 进 行 表 示 学 
习 ， 其 中 平移 模型 TransE H 作为 其 中 极 具 代表 性 的 模型 , 将 实体 和 关系 映射 至 同一 个 
低 维 问 量 空间 , 并 将 实体 与 实体 之 间 的 天 系 表示 为 实体 癌 量 之 间 的 平移 操作 , 在 结构 简 
单 的 同时 能 够 取得 显著 的 效果 。, 但 从 长 期 以 来 的 世界 知识 图 谱 表 示 学 习 研 究 上 来 看 , H 
界 知 识 图 谐 的 一 些 特性 对 其 表示 学 习 的 效果 具有 重要 影响 ,其 中 较为 典型 的 特性 如 下 。 

(1) EAA ARE So TAR P KAA a, 了 现实 世界 的 方方面面 ,， 实 
体 之 间 体 现 的 关系 也 多 种 多 样 , 规模 庞 大 。 

(2) 实体 和 关系 在 现实 中 有 多 种 形式 的 体现 。 现实 中 的 文本 、 声 音 、 图 像 等 形式 的 
信息 均 可 能 为 实体 和 关系 提供 丰 昌 的 语义 信息 。 

(3) 知识 图 谐 具 有 高 噪声 、 低 完整 度 。 由 于 现实 中 实体 和 关系 的 丰富 多 样 ， 世 界 知 
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识 图 谐 通 癌 很 难 兼 顾 高 质量 与 高 履 再 率 , 所 以 世界 知识 图 谐 通 音 具有 很 多 不 准确 或 缺失 

ER 3 点 特性 在 很 大 程度 上 为 知识 表示 学 习 带 来 了 巨大 挑战 。 鉴 于 上 述 特性 带 来 的 
问题 ， 我 们 有 针对 性 地 在 世界 知识 图 谐 表示 学 习 方 面 进行 了 研究 ,这些 研 究 主 要 从 以 下 
两 个 方面 进行 深入 与 展开 。 

(1) BU) Per SEREA AARE BY PASE TT SER 使 实体 和 关系 的 表示 能 够 充分 融 
合 知识 图 谱 的 结构 信息 ,能 够 综合 考虑 世界 知识 图 谱 中 关系 与 实体 的 复 末 多 样 、 图 谱 结 
构 的 黎 牙 与 不 完备 ， 以 及 图 谐 构建 过 程 带 来 的 不 准确 信息 。 

(2) 如 何 恰当 地 在 表示 学 习 中 融入 世界 知识 图 谱 之 外 的 信息 , 尤其 是 世界 知识 在 各 
种 不 同形 式 的 信息 载体 中 的 信息 ， 从 而 构建 多 信息 来 源 的 知识 表示 模型 。 

在 具体 介绍 针对 上 述 问 题 提出 的 解决 方法 之 前 , 我 们 先 来 回顾 知识 表示 学 习 领 域 的 
相关 现 有 方法 , 并 指出 我 们 的 工作 与 现 有 方法 之 间 的 关系 与 联系 , 并 对 知识 表示 学 习 方 
法 的 整体 脉络 进行 梳理 。 


2.2 相关 工作 


在 介绍 相关 工作 之 前 , 我 们 首先 人 简要 地 介绍 知识 表示 学 习 中 的 常用 符号 。 知 识 图 谱 
通常 以 实体 、 关 系 及 事实 三 元 组 进行 组 织 , 其 中 , E 表示 实体 集合 , RR 表示 关系 集合 , T 
表示 三 元 组 集合 。 对 于 事实 三 元 组 中 的 任 蕊 事实 , 我 们 使 用 (h,7,t) 进行 表示 , HP h Th 
表 头 实体 ,上 代表 尾 实体 , r 代表 头 尾 实 体 之 间 的 关系 。 根据 定义 , 有 heE,teE,reR， 
以 及 (h,7,t) e TT。 知 识 表 示 学 习 则 在 将 实体 与 关系 表示 为 低 维 连续 空间 之 中 的 向 量 , 在 
此 使 用 粗 体 的 符号 h,t,r 表示 头 尾 实体 与 关系 对 应 的 表示 问 量 。 


2.2.1 ”知识 表示 学 习 经 典 模型 


L. 结构 向 量 模 型 

结构 向 量 (Structured Embedding, SE) 模型 2° 是 知识 表示 学 习 较 早 的 尝试 。 在 结构 
问 量 模型 中 ， 所 有 实体 被 投影 至 同一 个 低 维 的 癌 量 空间 中 。 针 对 每 一 个 关系 r, AH 
量 模型 为 头 实体 与 尾 实体 分 别 设 计 了 一 个 关系 特 化 的 映射 矩阵 M, 和 Mo, 这些 映射 
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矩阵 将 会 在 训练 过 程 中 进行 目 动 更 新 。 模 型 对 每 个 三 元 组 (h,7,t) 的 评分 函数 定义 为 
E(h,r,t) = ||M,i1h — M,2t\|1,/1, (2.1) 
可 以 看 出 , 结构 回 量 模型 将 头 实 体 与 尾 实 体 通过 关系 特 化 的 映射 矩阵 投影 至 同一 癌 
量 空间 中 , 并 希望 映射 后 回 量 距离 越 小 时 三 元 组 存在 的 可 能 性 越 高 。 
2. 语义 匹配 能 量 模型 
语义 匹配 能 量 (Semantic Matching Energy, SME) 模型 1) 与 结构 癌 量 模 型 不 同 , 使 
用 低 维 回 量 表示 实体 及 关系 。 在 此 之 上 , 模型 使 用 矩阵 有 映射、 点 乘 等 操作 ， 对 实体 与 关 


系 的 联系 进行 评估 。 有 具体 地 , 语义 匹配 能 量 模型 设计 了 线性 形式 与 双 线 性 形式 两 种 对 三 
元 组 的 评分 函数 。 


E(h,r,t) = (Mıh + Mor + b1)(M3t+ Mar + b2) (2.2) 


E(h,r, t) = (Mıh & Mor) + b,)((M3t 9 Myr) + bo) (2.3) 
其 中 ,，@ 表示 按 位 相 乘 ; M1. Mo. M3. Ma Rate APRS; bin bo RANE 
向 量 。 此 外 , 还 有 基于 张 量 对 语义 匹配 能 量 模型 进行 改进 的 模型 "3 。 
3， 隐 变量 模型 


隐 变 量 模型 (Latent Factor Model, LFM) [90,183] 将 实体 表示 成 低 维 向 量 , 将 关系 表 
示 为 双 线 性 变换 矩阵 M, o 在 知识 表示 学 习 效 果 与 计算 复杂 度 方面 都 有 显 壮 改善 。 模 型 
的 评分 函数 为 


E(h,r,t) =hM,t (2.4) 
此 外 ,也 有 方法 将 关系 矩阵 限定 为 对 角 阵 对 隐 变 量 模 型 进行 改进 的 模型 ,在 降低 模 
型 复杂 度 的 情况 下 获得 了 更 好 的 模型 效果 2, 
4. FERE SS Ri 


矩阵 分 解 模 型 基于 矩阵 分 解 的 方式 进行 知识 表示 学 习 , 其 中 以 RESCAL 模型 049,150] 
和 HolE 模型 048 为 代表 。RESCAL 模型 使 用 一 个 三 阶 张 量 X e RIX 表示 三 元 组 ， 
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其 中 , d 是 实体 的 数量 ; k 是 关系 的 数量 。 如 果 Xnr = 1， 则 表示 三 元 组 (hr, t) 存在 。 设 
X ={X;; Xk} WMA EREN 


Xi x AR;A (2.5) 


其 中 ，A 表示 实体 癌 量 形成 的 和 矩阵; Ri 表示 第 i ARRE. HoE 模型 则 使 用 了 循环 
相关 运算 改进 RESCAL 模型 , 进一步 提升 了 计 复 效率 与 知识 表示 歼 朱 。 


5. 神经 张 量 网 络 模型 


神经 张 量 网 络 (Neural Tensor Network, NTN) 模型 [178] 基于 单 层 神经 网 络 模型 做 
出 改进 , 使 用 双 线 性 张 量 代替 原 模型 中 的 线性 变换 层 。 神 经 张 量 网 络 模 型 对 一 个 三 元 组 
(h,7,t) 的 评分 函数 为 


E(h,r,t) = u, tanh(h' M,t + M,,h+M,ot + b,) (2.6) 


其 中 , M, 是 三 阶 张 量 ; Mri 和 Ma BOR; w 是 一 个 针对 关系 r 的 特征 表示 ; br 
是 俩 首 问 量 。 神 经 张 量 网 络 模型 更 奏 确 地 刻 男 了 实体 与 关系 之 间 的 联系 ,获得 了 更 好 的 
知识 表示 效果 , 但 是 复杂 的 模型 也 使 得 计算 复杂 度 提 高 ,同时 对 知识 图 谐 的 稠密 程度 有 
更 高 的 要 求 。 

由 于 计算 复杂 度 较 高 上述 经 典 模型 通常 难以 在 大 规模 世界 知识 图 谱 中 羔 顾 效率 和 
结果 ， 因 此 ， 近 年 来 世界 知识 图 谱 表 示 学 习 的 研究 工作 ,包括 本 章 详细 讨论 的 工作 , E 
要 基于 下 面 介绍 的 平移 模型 展开 的 。 


2.2.2 ”平移 模型 及 其 拓展 模型 


平移 模型 (TransE) 19 是 Bordes 等 研究 者 在 2013 年 提出 的 知识 表示 学 习 算 法 。 平 
移 模 型 将 实体 和 关系 映射 至 同一 个 低 维 向 量 空 间 , 将 实体 与 实体 之 间 的 关系 表示 为 实体 
向 量 之 间 的 平移 操作 。 由 于 只 考虑 了 向 量 之 间 的 平移 操作 , 平移 模型 的 计算 复杂 度 大 大 
降低 ,并且 学 到 的 知识 表示 在 知识 图 谱 补 全 等 任务 方面 的 效果 也 得 到 了 显著 提升 , 在 知 
识 表示 任务 中 被 广泛 运用 。 

平移 操作 的 思想 在 其 他 任务 中 早 有 运用 。Mikolov 等 研究 者 于 2013 年 提出 了 词 表 示 
学 习 模 型 一 word2vec |127 130,131], RI word2vec 学 习 到 的 词 回 量 之 间 有 着 有 趣 的 语 
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义 平 移 现象 , 例如 : 
v( 国 王 ) - w( 男 人 ) ~ v( 王 后 ) -v( 女 人 ) (2.7) 


其 中 , v(x) 表示 z 的 词 向 量 。 这 种 语义 平移 现象 表明 了 词 和 词 之 间 的 隐 含 语义 关系 被 成 
功 地 编码 进 了 词 问 量 中 。 


图 2.1 平移 模型 图 示 


受到 词 空间 语义 平移 现象 的 启发 , 平移 模型 将 这 种 隐 舍 语义 关系 显 式 地 用 关系 进行 
表示 。 具 体 地 , 对 于 给 定 的 三 元 组 (hr, t) 平移 模型 将 关系 向 量 7 看 作 从 头 实体 h BIE 
实体 t 的 平移 向 量 ， 如 图 2.1 所 示 。 基 于 以 上 平移 假设 , 平移 模型 希望 一 个 三 元 组 内 的 
实体 与 关系 向 量 之 间 存 在 h 十 7 之 t 的 关系 。 形式 化 地 ,模型 对 三 元 组 (h,7,t) 定义 了 如 
下 评分 函数 : 


E(h,r, t) = |h +r | Ea (2.8) 
在 实际 训练 中 , 平移 模型 使 用 最 大 间隔 方法 , 定义 了 如 下 评分 函数 进行 优化 : 


CS ` >, max(7y + E(h,r,t) — E(h’,r,t’), 0) (2.9) 
(hr,t) ET (Art ET! 
其 中 , TAT’ 分 别 是 正 例 三 元 组 与 负 例 三 元 组 的 集合 ; y 是 正 负 例 三 元 组 得 分 的 间隔 距 
离 。 平 移 模 型 通过 最 大 化 正 负 例 三 元 组 之 间 的 得 分 差 来 优化 知识 表示 。 
RE PAB PRALINE FFA WIS AT ARRAN FES, 
但 在 世界 知识 图 谱 上 , 平移 模型 仍 存 在 着 以 下 改进 与 优化 的 空间 。 
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(1) 过 于 理想 化 的 平移 假设 , 在 对 知识 图 详 中 的 复杂 关系 进行 建 模 时 往往 存在 问题 。 


根据 Bordes 的 定义 , 知识 图 谱 中 存在 一 对 多 、 多 对 一 甚至 多 对 多 的 复杂 关系 9), 以 是 …… 职 
业 关 系 为 例 , 有 (莎士比亚 , 是 …… 职 业 , HER) 和 (鲁迅 , 是 …… 职 业 , 作家 ) 两 条 知识 。 


但 是 莎士比亚 和 鲁迅 仅 应 在 谈论 作家 这 一 关系 下 有 相似 的 表示 ,而 在 其 他 属性 (如 作品 
风格 、 年 代 、 国 籍 等 ) 关系 上 有 较 大 区 别 。 为 了 解决 对 复杂 关系 建 模 的 问题 ，TransH fe 
型 195). TransD 模型 Ol 等 基于 平移 模型 的 改进 方法 相继 被 提出 ,使 用 向 量 空间 投影 与 
矩阵 映射 等 方式 , 改进 平移 模型 对 复杂 关系 的 建 模 效果 。 此 外 ，TransG 模型 202 提出 使 
用 高 斯 混合 模型 描述 实体 之 间 的 关系 ,将 每 种 语义 以 一 个 高 斯 分 布 进 行 刻 画 。KG2E 模 
FY (73) 直接 使 用 高 斯 分 布 表示 实体 和 关系 ， 以 高 斯 分 布 的 协 方差 表示 实体 与 关系 的 不 确 
定 度 。ManifoldE 模型 201 则 使 用 流 形 对 知识 表示 进行 建 模 ， 显 著 提 高 了 知识 表示 相关 
任务 的 性 能 。TransR 模型 113 通过 关系 特 化 的 实体 投影 矩阵 , 在 考虑 不 同 关系 的 时 候 将 
实体 映射 到 不 同 的 语义 空间 中 ,使 实体 在 不 同 关 系 中 能 够 体现 出 不 同 的 语义 特征 ， 从 而 
增强 了 模型 对 复杂 关系 的 处 理 能 力 。 此 外 ，KR-EAR 模型 根据 不 同 关 系 本 身 的 语义 和 了 映 
射 特 点 ， 从 一 般 的 关系 中 剥离 出 一 类 特殊 的 “属性 ”关系 , 对 其 单独 使 用 分 类 模型 建 模 ， 
通过 这 种 “分 而 治之 ”的 方式 改进 了 模型 对 复杂 关系 的 处 理 。 

(2) 平移 模型 仅仅 关注 知识 图 谱 三 元 组 的 局 部 信息 , 而 忽略 了 知识 图 谱 网 络 的 全 局 
结构 与 关系 之 间 的 推理 逻辑 。 知 识 图 谱 中 的 多 步 关 系 路 径 蕴 售 着 丰富 的 信息 ， 能够 帮助 
我 们 进行 知识 推理 。 例 如 ， 如 果 我 们 知道 (故宫, 位 于 ， 北 京 ) 与 (北京 ， 是 …… 首 都 ， 
中 国 ) 两 条 知识 ,那么 我 们 很 容易 能 够 推理 出 (故宫 , 位 于 , 中 国 ) 这 条 知识 。 针 对 这 个 
问题 ，KALE 模型 V 在 知识 表示 学 习 中 引入 了 逻辑 规则 ， 提 高 了 平移 模型 的 效果 ， 而 
PTransE 模型 111] 则 通过 构建 多 步 关 系 路 径 信 息 的 低 维 黎 入 表示 来 引入 其 中 比 舍 的 知识 
推理 信息 。 

(3) 平移 模型 只 关注 了 知识 图 谱 自 身 的 网 络 结构 信息 , 忽略 了 众多 多 源 异 质 的 丰富 
信息 ， 如 文本 、 实 体 类 型 与 图 像 等 信息 。 这 些 多 源 信息 既 能 辅助 知识 表示 学 习 模 型 更 好 
地 学 习 已 有 的 结构 化 知识 , 也 能 提供 在 知识 图 谐 结构 信息 之 外 的 多 模 态 信息 。 目 前 研究 
者 对 如 何 将 多 源 信 息 融 入 知识 表示 学 习 的 探索 还 仅仅 处 于 初期 阶段 , 我 们 在 此 方面 提出 
了 DKRL、TKRL 和 IKRL 模型 ， 创造 性 地 给 出 了 在 知识 表示 学 习 中 融入 实体 文本 描述 
信息 、 实 体 层次 类 型 信息 和 实体 图 像 信息 的 方法 。 

在 本 章 的 剩余 部 分 , 将 详细 讨论 这 些 改 进 工 作 。 
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2.3 ”基于 复杂 关系 建 模 的 知识 表示 学 习 


TransE 及 其 扩展 模型 通常 将 实体 和 关系 映射 到 一 个 固定 的 共同 空间 中 ,在 这 样 的 设 
定 下 , 两 个 不 同 的 实体 在 该 空间 中 的 表示 之 间 的 距离 在 理想 情况 下 应 当 能 体现 它们 之 间 
语义 的 相似 性 。 然 而 ,在 世界 知识 中 ， 同 一 个 实体 在 不 同 的 关系 场景 下 具有 的 语义 是 有 
区 别 的 ,例如 “多 纳 德 ， 威 尔 逊 。 里 根 ” 既 是 美国 总 统 ,， 也 是 专栏 作家 及 戏剧 演员 。 由 
语义 在 不 同 场景 中 的 复杂 性 可 知 ， 在 固定 空间 中 表示 实体 极 大 地 限制 了 TransE 及 其 扩 

针对 这 一 问题 , 我 们 提出 了 TransR 模型 。 


2.3.1 ”算法 模型 


如 图 2.2 Prax, TransR 与 传统 模型 的 主要 差异 在 于 它 为 每 种 关系 7 定义 了 单独 的 语 
义 空间 ， 并 使 用 不 同 的 映射 矩阵 M, 定义 从 实体 空间 到 各 个 关系 空间 的 上 映射。 具体 地 ， 
对 于 一 个 给 定 的 三 元 组 (h,r,t), TransR ACHR ARE PRY FEE M, 将 实体 从 实 
体 空 间 上 映射 到 关系 r 所 在 的 关系 空间 中 , 得 到 h, 和 to 


h,=M,h, t,=M,t (2.10) 


0 实体 空间 Q r 的 关系 空间 
图 2.2 TransR 的 简易 示意 图 
在 关系 r 所 在 的 空间 中 , h, M t, 满足 的 关系 转移 约束 与 TransE、TransH 相同 ， 即 
使 用 类 似 的 评分 函数 : 
fr(h,t) = ||he +r — tr|| 21/12 (2.11) 
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此 外 ,我 们 注意 到 ,相同 的 关系 在 不 同 实体 对 中 的 语义 通 单 具 有 一 定 的 多 样 性 。 例 
i, 关系 “地 区 包含 ”可 以 出 现在 国家 包含 城市 、 城 市 包含 大 学 和 大 洲 包 含 国 家 等 多 种 
情形 中 。 为 了 进一步 增强 模型 对 这 种 复杂 关系 的 建 模 能 力 ， 我 们 又 在 TransR 的 基础 上 
提出 了 CTransR 模型 。 

CTransR 基于 分 段 线性 回归 的 思路 ， 对 TransR 进行 了 进一步 拓展 。 模 型 对 头 尾 实 
体 间 的 潜在 关系 进行 聚 关 ,， 并 为 每 一 个 聚 关 的 艇 单独 建立 四 量 表示 。 有 具体 地 ， 对 于 特定 
的 关系 >， 所 有 训练 数据 殖 舍 这 个 关系 的 实体 对 (h, t) 将 会 根据 (h-t) RRR TA 
H, EP h, t A TransE 得 到 的 实体 能 入 。 我 们 假设 同一 组 内 的 实体 对 所 表现 的 关系 r 
具有 相近 的 特征 ， 而 不 同 组 内 表现 的 关系 r 可 能 有 较 大 的 差异 。 因 而 ， 对 每 一 组 实体 对 
c CTransR 学 习 了 一 个 单独 的 关系 骸 入 ro 评分 函数 也 相应 地 被 修改 为 


fr(h,t) = 十 re 一 去 czyzs + allre — rll (2.12) 


其 中 , re- rli 用 来 约束 聚 类 成 的 关系 同 量 re 与 原始 关系 向 量 r 之 间 的 距离 ， 使 不 同 
艇 表现 的 同一 个 关系 仍 具 有 一 定 程度 上 的 相似 性 , 而 a 用 于 调节 这 个 约束 对 损失 函数 的 
影 啊 。 


2.3.2 ”实验 分 析 


我 们 采用 WN18、WN11、FB15K 和 FB13 数据 集 , 在 链接 预测 、 三 元 组 分 类 及 文本 
关系 抽取 任务 上 对 TransR 和 CTransR 进行 了 实验 。 下面 就 实验 结果 展开 讨论 。 


1. 链接 预测 


链接 预测 是 用 来 预测 三 元 组 (h,7,t) 中 缺失 实体 h R t 的 任务 , 并 且 在 一 系列 工作 
中 被 使 用 过 71, 并。 在 本 任务 中 , 对 于 每 一 个 缺失 的 实体 , 模型 将 被 要 求 用 所 有 的 知识 
图 谱 中 的 实体 作为 候选 项 进行 计算 , 并 进行 排名 , 而 不 是 单纯 给 出 一 个 最 优 的 预测 结果 。 
与 之 前 的 工作 一 样 920), 我 们 在 WN18 和 FB15K 上 进行 了 实验 。 

在 测试 阶段 , 对 于 每 个 待 测试 三 元 组 (hy r,t), 我 们 用 知识 图 谱 中 的 除去 hh 与 + 之 外 
的 其 他 实体 作为 候选 项 来 蔡 换 头 实 体 或 尾 实体 , 并 且 按 大 小 顺序 给 出 这 些 实 体 的 评分 函 
数 fro 与 Bordes 等 人 的 操作 一 样 49 ,我 们 使 用 了 两 种 评测 方式 : @ 正确 的 实体 评分 函 
数 的 平均 排名 (mean rank); © 正确 的 实体 排名 在 前 10 的 比例 , 即 十 命中 率 (hits@10)。 
一 个 优秀 的 链接 预测 模型 应 当 获 得 较 低 的 平均 排名 和 较 高 的 十 命中 率 。 
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实际 上 , 一 个 被 人 为 构建 的 负 例 三 元 组 有 可 能 是 存在 于 知识 图 谱 中 的 , 这 不 应 当 被 
视 作 负 例 。 然 而 ， 上 述 的 评测 方法 可 能 低估 了 这 些 三 元 组 对 评测 结果 的 影响 。 因 此 , 在 
对 候选 进行 排名 之 前 , 我们 先 将 这 些 三 元 组 过 滤 掉 ， 然 后 用 上 述 的 方法 评测 。 我 们 将 初 
始 的 评测 方法 称 为 “原始 ", 而 将 之 后 过 滤 的 评测 方法 称 为 “过 滤 ”。 

因为 采用 了 相同 的 数据 集合 ， 我 们 直接 对 比 了 模型 与 之 前 论文 报告 的 结果 。 对 于 
TransR 和 CTransR 的 实验 ， 从 {0.1,0.01,0.001} 中 选择 随机 梯度 下 降 算 法 (SGD) 的 学 
Md; 从 {1,2,4} 中 选择 边界 值 y; M {20,50,100} 中 选择 实体 和 关系 的 维度 k 和 
d; 从 {20,120, 480,1 440,4 800} 中 选择 同一 批 次 训练 的 数据 规模 Bo XAF CTransR， 从 
{0.1, 0.01, 0.001} 中 选择 约束 参数 w。 通 过 验证 集 上 的 平均 排名 评分 来 决定 最 好 的 参数 。 
对 于 WN18, 我 们 采用 了 L 距离 ,最 优 的 参数 为 入 = 0.001, y=4, k=50, d= 50, B= 
1 440, a = 0.001。 对 于 FB15K, 我 们 采用 了 L 距离 , 最 优 的 参数 为 入 = 0.001, y=1, k= 
50, d= 50, B = 4 800, a = 0.01。 对 于 这 两 个 数据 集合 , 我 们 均 训练 500 轮 。 


WN18 和 FB15K 上 的 评测 结果 被 罗列 在 表 2.1 中 ， 包 括 两 种 不 同 的 负 例 采样 算 


法 一 一 unif( 均 衡 采 样 ) 和 bern (基于 头 尾 实体 分 布 伯 努 利 采样 )。 
k 2.1 WN18 和 FB15K 上 的 评测 结果 
数据 集 WN18 FB15K 

评测 指标 平均 排名 十 命中 率 (%) 平均 排名 十 命中 率 (%) 
原始 Wye 原始 过 滤 原始 Wye 原始 Wye 

unstructured 315 304 35.3 38.2 1 074 979 4.5 6.3 
RESCAL 1 180 1 163 37.2 52.8 828 683 28.4 44.1 
SE 1 011 985 68.5 80.5 273 162 28.8 39.8 

SME (linear) 545 533 65.1 74.1 274 154 30.7 40.8 
SME (bilinear) 526 509 54.7 61.3 284 158 31.3 41.3 
LFM A69 456 71.4 81.6 283 164 26.0 33.1 
TransE 263 251 75.4 89.2 243 125 34.9 A7.1 
TransH (unif) 318 303 75.4 86.7 211 84 42.5 58.5 
TransH (bern) 401 388 73.0 82.3 212 87 45.7 64.4 
TransR (unif) 232 219 78.3 91.7 226 78 43.8 65.5 
TransR (bern) 238 225 79.8 92.0 198 77 48.2 68.7 
CTransR (unif) 243 230 78.9 92.3 233 82 44 66.3 
CTransR (bern) 231 218 79.4 92.3 199 75 48.4 70.2 


从 表 2.1 中 , 我 们 可 以 看 出 : 
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(1) TransR 和 CTransR td TransE 和 TransH 在 内 的 其 他 模型 均 要 表现 突出 。 
这 表明 TransR 在 效率 和 复杂 程度 上 找到 了 一 个 更 好 的 权衡 。 

(2) CTransR LK TransR 要 表现 优异 ,这 表明 我 们 应 当 构 建 更 细 粒 度 的 模型 来 解决 
同一 个 关系 下 子 关系 复杂 的 多 样 性 和 相关 性 。CTransR 只 是 一 个 初步 的 尝试 , 之 后 我 们 
会 在 工作 中 答 试 使 用 更 精细 的 模型 来 解决 这 个 问题 。 

(3) bern 采样 的 效果 在 TransH 和 TransR 上 都 比 之 前 的 采样 有 所 提升 , 尤其 是 在 拥 
有 更 多 关系 的 FB15K E. 

在 表 2.2 中 ,我 们 将 关系 分 类 并 且 分 别 呈 现 了 实验 结果 。 在 FB15K 上 ， 可 以 发 现 
TransR 在 所 有 关系 上 都 获得 了 最 好 的 结果 , 尤其 是 : 

(1) 预测 单 对 单 关 系 时 ，TransR. 为 实体 与 关系 的 复杂 相关 性 提供 了 更 精确 的 表示 ， 
正如 图 2.2 所 示 的 那样 。 

(2) 在 预测 单 对 多 、 多 对 单 关系 时 ,TransR, 通过 关系 特定 映射 来 区 分 相关 实体 的 能 
力 得 到 了 充分 体现 , 也 取得 了 很 大 提升 。 


表 2.2 ”将 关系 分 类 后 在 FB15K 上 的 评测 结果 


评测 指标 头 实 体 预测 十 命中 率 (%) 尾 实体 预测 十 命中 率 (%) 
关系 类 别 l-to-l ltoN N-tol N-toN ltol ltoN N-tol N-to-N 
unstructured 34.5 2.5 6.1 6.6 34.3 4.2 1.9 6.6 
SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 
SME (linear) 35.1 53.7 19.0 40.3 32.7 14.9 61.6 43.3 
SME (bilinear) 30.9 69.6 19.9 38.6 28.2 13.1 16.0 A1.8 
TransE 43.7 65.7 18.2 AT .2 43.7 19.7 66.7 50.0 
TransH (unif) 66.7 81.7 30.2 57.4 63.7 30.1 83.2 60.8 
TransH (bern) 66.8 87.6 28.7 64.5 65.5 39.8 83.3 67.2 
TransR (unif) 76.9 77.9 38.1 66.9 76.2 38.4 76.2 69.1 
TransR (bern) 78.8 89.2 34.1 69.2 79.2 37.4 90.4 2.1 
CTransR (unif) 78.6 77.8 36.4 68.0 77.4 37.8 78.0 70.3 
CTransR (bern) 81.5 89.0 34.7 71.2 80.8 38.6 90.1 73.8 


# 2.3 给 出 FB15K 中 “地 区 包含 ” 关系 的 一 些 聚 类 示例 。 我 们 可 以 发 现 : RK 1 是 
大 洲 包含 国家 , RA 2 是 国家 包含 城市 ， 聚 类 3 是 区 域 包含 城市 , RR 4 是 国家 包含 大 
和 尝 。 很 明显 ， 通 过 聚 类 ， 可 以 学 习 更 精确 和 细 粒 度 的 关系 通 入 ， 有 助 于 进一步 提高 知识 
图 谱 的 填充 性 能 ， 这 充分 证 实 了 我 们 在 设计 TransR. 与 CTransR 时 的 设想 。 

OD 关系 的 映射 方法 遵循 Bordes 等 人 使 用 的 规则 |19| 。 
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表 2.3 ( 头 实体 , BRA) 对 于 “地 区 包含 ”的 聚 类 样 例 


( 头 实体 , 尾 实 体 ) 
1 ( 非洲 , 刚果 ), ( 亚洲 ,尼泊尔 ), ( 南美 洲 , MEES ), ( 大 洋 洲 , 密 克 罗 尼 西亚 联邦 ) 
2 (美国, 坎 卡 基 ), ( 英国 , 贝 里 圣 埃 德 蒙 效 ), ( 英国 , ARM), ( 意大利 ， 佩 鲁 贾 ) 
3 ( 佐治 亚 州 , AEW ), ( Bik, 博 伊 西 ), ( 阿肯色 州 , WHE ), ( EDEM, Mews ), 
( 一 一 一 卡 斯 县 ) 
( 瑞典 ， 隆 德 大 学 ), ( 英国 , 剑桥 大 学 ), ( 弗 雷 斯 诺 ， 加 州 州立 大 学 弗 雷 斯 诺 分 校 ), ( 意大利 ， 
we ) 


2. 三 元 组 分 类 

三 元 组 分 类 是 一 个 判断 给 定 三 元 组 (h, r, t) 正确 与 否 的 任务 。 这 是 一 个 二 分 类 任务 ， 
已 经 在 一 系列 工作 中 作为 评测 方式 178,194。 在 这 个 任务 上 上， 我们 采用 WN11、FB13 与 
FB15K 来 进行 测试 ,并且 与 Wang 等 人 的 设置 保持 一 臻 [194] 。 

我 们 需要 负 例 三 元 组 来 进行 二 分 类 测试 。 在 NTN 278) 中 ,数据 集合 WN11 和 FB13 
己 经 有 了 负 例 三 元 组 。 但 对 于 FB15K 来 说 , 却 没有 之 前 工作 公开 发 布 出 的 负 例 三 元 组 ， 
我 们 采用 了 Socher 等 人 使 用 的 负 例 生成 算法 178 进行 负 例 构建 。 对 于 三 元 组 分 类 , KAN 
设置 了 一 个 特殊 的 阔 值 5.。 对 于 三 元 组 (hr t) 如 果 评 分 函数 的 结果 低 于 ô 那么 三 元 
组 将 会 被 认为 是 正确 的 , 反之 则 是 错误 的 。5, 则 是 通过 最 大 化 验证 集 上 的 分 类 精度 来 进 
行 优 化 的 。 

对 于 WN11 和 FB13, 我 们 比较 了 TransR 与 CTranR 及 Wang 等 人 汇报 的 结果 04, 
由 于 FB15K 是 根据 Socher 等 人 的 策略 自行 生成 的 上 7 , 因此 评估 结果 无 法 直接 与 之 前 的 
结果 进行 比较 。 因 此 , 我 们 目 行 实现 TransE 和 TransH, 并 使 用 Socher 等 人 发 布 的 NTN 
ARI 178], Æ FB15K 数据 集 上 进行 了 评估 与 比较 。 

对 于 TransR 的 实验 来 说 ， 我 们 从 {0.1,0.01,0.001,0.000 1} 中 为 SGD 选择 学 习 率 
A; 从 {1,2,4} 中 选择 边界 值 y; 从 {20,50,100} 中 选择 实体 和 关系 的 维度 k 和 ds 从 
{20, 120, 480, 1 440, 4 800} 中 选择 同一 批 次 训练 的 数据 规模 B。 我 们 通过 验证 集 的 平均 排 
名 来 决定 最 好 的 参数 。 对 于 WN11, 我们 采用 了 L 距离 ， 最 优 的 参数 为 和 = 0.001, y= 
4, k = 20, d= 20, B=120, a=0.001. $F FB13, 我 们 采用 了 L 距离 , 最 优 的 参数 为 
入 = 0.0001, y=2, k= 100, d= 100, B= 480, a = 0.01。 对 于 这 两 个 数据 集合 , 我们 均 
训练 1 000 轮 。 

三 元 组 分 类 的 评估 结果 如 表 2.4 所 示 。 从 表 2.4, 我 们 观察 到 : 
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(1) Æ WN11 上 ,TransR 显著 优 于 包括 TransE 和 TransH 在 内 的 方法 。 

(2) TransE、TransH 和 TransR 都 不 能 超过 FB13 上 最 具 表 现 力 的 模型 NTN。 相 
比 之 下 ， 在 较 大 的 数据 集 FB15K 上 ，TransE、TransH 和 TransR 的 性 能 要 好 于 NTN. 
结果 可 能 与 数据 集 的 特征 有 关 : FB15K 中 有 1345 种 关系 类 型 ,而 FB13 中 只 有 13 种 
关系 类 型 。 同 时 ， 两 个 数据 集中 的 实体 数量 和 三 元 组 数量 相近 。 正 如 Wang 等 人 讨论 到 
Hy O94), FB13 中 的 知识 图 谱 比 FB15K 甚至 WN11 更 稠密 。 某 种 程度 上 ， 最 具 表 现 力 的 
模型 NTN 可 以 从 FB13 的 稠密 图 中 使 用 张 量变 换 来 学 习 复 杂 的 相关 性 。 相 比 之 下 , E 
单 的 模型 能 够 更 好 地 处 理 FB15K 这 样 的 稀 玖 图 , 并 具有 民 好 的 泛 化 能 力 。 

(3) 此 外 , bern 采样 技术 提高 了 TransE、TransH 和 TransR 在 所 有 数据 集 上 的 性 能 。 


表 2.4 三 元 组 分 类 的 评测 结果 (%) 
数据 集 WN11 FB13 FB15K 
SE 53.0 75.2 一 
SME (bilinear) 70.0 63.7 一 
SLM 69.9 85.3 一 
LFM 73.8 84.3 = 
NTN 70.4 87.1 68.5 
TransE (unif) 75.9 70.9 79.6 
TransE (bern) 75.9 81.5 79.2 
TransH (unif) 77.7 76.5 79.0 
TransH (bern) 78.8 83.3 80.2 
TransR (unif) 85.5 74.7 81.7 
TransR (bern) 85.9 82.5 83.9 
CTransR (bern) 85.7 一 84.5 


3. 文本 关系 抽取 


关系 抽取 中 在 从 大 规模 文本 中 提取 关系 事实 ， 这 是 丰 蜗 知识 图 谐 的 重要 信息 来 源 。 
当前 ,大量 的 方法 [87 134,159,182 通过 知识 图 谱 作为 远程 监督 信号 , 对 大 量 文 本 语料库 中 
的 句子 进行 目 动 标注 , 然后 提取 文本 特征 来 构建 关系 分 类 右 。 这 些 方法 只 使 用 纯 文 本 来 
推断 新 的 关系 事实 。 与 之 不 同 的 是 , 知识 图 谱 表 示 学 习 则 基于 现 有 的 知识 图 谱 结 构 进 行 
链接 预测 来 拓展 新 的 关系 事实 。 

所 以 , 同时 利用 纯 文本 和 知识 图 诺 来 推断 独 的 关系 事实 是 很 耻 接 的 想法 。 在 Weston 
等 人 的 工作 中 “89 ,模型 将 TransE 和 基于 文本 的 提取 模型 相 结 合 , 对 候选 事实 进行 评分 
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排序 , 取得 了 十 分 明显 的 提升 效果 。 在 TransH 14 的 工作 中 也 发 现 了 类 似 的 效果 改进 。 
在 本 节 中 , 我 们 将 结合 文本 关系 抽取 模型 来 研究 TransR 的 性 能 。 

我 们 使 用 了 NYT+FB 数据 集合 , 这 个 数据 集合 也 被 用 在 Weston A 08 的 工作 中 。 
在 这 个 数据 集中 , 纽约 时 代 周 刊 文本 内 容 (New York Times Corpus) 中 的 实体 用 Stanford 
NER 来 注释 并 链接 到 Freebase 的 实体 之 上 。 

在 本 实验 中 ， 我 们 实现 了 Weston 等 人 [99 提出 的 基于 文本 的 提取 模型 (命名 为 
Sm2r) 。 对 于 知识 图 谱 部 分 ，Weston 等 人 186 使 用 了 近 400 万 个 实体 的 Freebase 子 集 ， 
同时 有 23 000 SAHARA. HF TransH 尚未 发 布 数据 集 , A TransR 将 需要 花费 很 长 时 
间 才 能 从 400 万 个 实体 的 数据 中 学 习 到 和 骨 入 表示 。 因 而 ,我 们 自行 生成 了 一 个 较 小 的 数 
据 集 FB40K, 其 中 包含 NYT 中 的 所 有 实体 和 1 336 个 关系 类 型 。 为 了 测试 公平 , 我们 从 
FB40K 中 删除 了 出 现在 测试 集中 的 所 有 三 元 组 。 与 之 前 工作 的 结果 94196) 相 比 ， 我 们 
发 现 使 用 FB40K 进行 学 习 并 不 会 显著 降低 TransE 和 TransH 的 有 效 性 。 因 此 , 我 们 可 
以 安全 地 使 用 FB40K 来 证 明 TransR 的 有 效 性 。 

采用 与 Weston A 96) 相同 的 处 理 方 法 , 我 们 将 基于 文本 的 关系 抽取 模型 获得 的 
预测 评分 与 知识 图 谱 表 示 获 得 的 预测 评分 相 加 来 进行 排序 ， 并 获得 TransE、TransH 与 
TransR W R-AZ H. RITKA k,d = 50， 学 习 率 入 = 0.001， 边 界 距离 
y=10, B = 960, 并 且 采 用 了 Li 距离 。 精度- 召回 率 曲 线 如 图 2.3 所 示 。 从 图 2.3 中 可 


= 


0 01 02 03 04 05 06 07 08 09 1 
# E% 


图 2.3 TransE, TransH 与 TransR 在 关系 抽取 上 的 精度 -召回 率 曲 线 
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以 观察 到 , 当 名 回 范 围 为 [0,0.05] 时 ， TransR 优 于 TransE, 与 TransH 相当 ; 当 召 回 范围 
为 [0.05,1] 时 ，TransR 的 表现 超越 了 所 有 的 模型 , 包括 TransE 和 TransH。 


2.3.3 ”小结 


在 本 节 中 ， 我 们 提出 了 一 种 基于 复杂 关系 建 模 的 知识 表示 模型 一 一 TransR。TransR 
将 实体 和 关系 租 入 不 同 的 空间 中 ,并 通过 每 个 关系 特定 的 映射 矩阵 , 将 实体 投影 到 关系 
空间 中 来 学 习 磐 入 表示 。 此 外 ,我 们 还 提出 了 CTransR, 其 引入 了 分 段 线 性 回归 的 思想 
来 处 理 每 个 关系 类 型 内 部 的 复杂 相关 性 , 可 以 进一步 细 化 原 有 模型 的 关系 表示 。 在 实验 
H, RIE 3 个 任务 上 进行 了 模型 评估 , 包括 链接 预测 、 三 元 组 分 类 与 文本 关系 抽取 。 实 
验 结 果 表 明 , 与 TransE 和 TransH 相 比 ，TransR 取得 了 显著 的 提升 效果 。 
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TransE 及 其 扩展 模型 往往 只 考虑 了 实体 之 间 的 直接 关系 , 但 事实 上 , 知识 图 谱 中 的 
实体 之 间 的 多 步 关系 路 径 殖 含 了 丰富 的 语义 信息 , 考虑 关系 路 径 的 特征 对 我 们 更 好 地 进 
行 知识 表示 具有 重要 意义 。 例如， 关系 路 径 h 出 生地 , 。， 城市 归属 ,。 省 份 归属 y 
含 了 hh 和 tt 之 间 的 国籍 KA, 亦 即 (hh, 国籍 tj。 由 此 , 我 们 提出 PTransE 模型 , 将 知识 图 
详 中 的 关系 路 径 融入 知识 表示 学 习 模 型 中 。 


2.4.1 算法 模型 


TransE 与 PTransE 的 简易 示意 图 如 
图 2.4 所 示 。 可 以 看 到 ，PTransE 仍然 基于 
TransE 的 平移 假设 ， 但 以 关系 路 径 取 代 了 
TransE 中 的 单个 关系 三 元 组 , 即 PTransE 为 
关系 三 元 组 定义 的 评分 函数 考虑 了 实体 间 的 
多 步 关 系 路 径 信息 : 


图 24 TransE 与 PTransE 的 简易 示意 图 


G(h,r,t) = E(h,r,t) + E(h, P, t) (2.13) 
其 中 , E(h,r,t) 用 直接 关系 三 元 组 刻画 了 关系 和 实体 之 间 的 相关 性 , 如 TransE 中 定义 的 


E(h,r,t) = |h +r ter (2.14) 
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而 E(h, P,t) 是 PTransE 模型 的 与 众 不 同 之 处 ， 它 通过 多 步 路 径 来 刻画 关系 层面 的 推理 
信息 。 由 于 一 对 实体 /上 在 知识 图 谐 中 可 能 存在 多 个 不 同 的 关系 路 径 〈 记 实体 间 头 系 路 
径 集 合 为 P(h,t)), 不 同 的 关系 上 路径 在 体现 实体 间 联 系 方面 的 可 靠 性 可 能 各 不 相同 ,我 
们 定义 E(h, P,t) 人 性 加 权 平 均 的 结果 : 


E(h, P,t) 2 2 R(p | h,t)E(h, p, t) (2.15) 
Z chin, t) 
HH, Z= >》 R(p |h,t) 是 归 一 化 因子 , 而 R(p | ht). E(h,p,t) 分 别 衡量 了 关系 路 


peEP(h,t) 


径 可 靠 性 和 关系 路 径 下 实体 对 的 能 量 。 PTransE 模型 设计 的 主要 挑战 便 在 于 后 两 者 的 定 
x, BẸ 
o 如 何 评 佑 关系 路 径 p 的 可 菲 程度 。 
。 如何 得 到 一 条 关系 路 径 p HWRARD po 
针对 第 一 个 挑战 , 我 们 提出 了 一 种 对 路 径 进 行 约束 的 资源 分 配 算法 (Path-Constraint 
Resource Allocation, PCRA) 来 衡量 关系 路 径 的 可 徘 性 , 其 基本 思想 是 : 假设 存在 一 定数 
EAW, MARKE h 流出, 且 将 沿 着 给 定 路 径 p 流动 , 使 用 最 终 流 问 尾部 实体 t 的 
资源 总 量 来 衡量 路 径 p 作为 h 和 t 之 间 连 接 路 径 的 可 靠 性 。 从 h 开始 ， 沿 看 关系 路 径 
p， 可 以 将 流动 路 径 写 为 So > 51 一 … 一 51, 其 中 So = {h} H te S$1。 对 于 任意 实体 
m € Sir 将 它 在 关系 7; 上 的 直接 前 驱 记 作 Sii(-,m). Fi m 的 资源 被 定义 为 
| 1 
Rp(m) = 2 oB Rp(n) (2.16) 


nESi— 


HEF, Si(n,) 是 ne Si ERA ri proensa R,(n) 是 从 实体 n 获取 的 资源 。 

由 于 两 个 实体 间 的 天 系 路 径 数 量 可 能 非常 庞大 , 我 们 在 实验 中 仅 考 虑 长 度 不 超过 3、 
HERR TARER RKI. 

针对 第 二 个 挑战 , REAT 3 种 不 同 的 方法 得 到 关系 路 径 的 表示 。 

e Al: p=ritret::: +710 

© AA: p= TIT2 Tlo 

。 循环 神经 网 络 (RNN): p = ci， 其 中 a 是 RNN 在 序列 riro r 上 产生 的 最 

后 一 个 状态 。 

p 可 以 被 看 作 根 据 多 步 天 系 路 径 信息 得 到 的 对 实体 间 关 系 的 近似 ， 因 而 ， 我 们 定义 

PTransE 的 评分 函数 Elh, p, t) Ap 与 7 的 接近 程度 ， 即 


E(h,p,t) = |p — "lr (2.17) 
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2.4.2 ”实验 分 析 


我 们 在 实体 预测 、 关 系 预测 及 文本 中 的 关系 抽取 3 个 任务 上 对 不 同 设 置 下 的 PTransE 


1. 实体 预测 


在 实体 预测 这 一 子 任务 中 , 这 里 同样 遵循 Bordes 等 人 09 的 实验 设置 。 我们 使 用 两 
种 测量 标准 作为 评价 指标 : @ 正确 的 实体 评分 函数 的 平均 排名 (mean rank); © 正确 的 
实体 排名 在 前 10 的 比例 ， 即 十 命中 率 (hits@10)。 

理想 情况 下 , PTransE 可 以 找到 给 定 实 体 和 所 有 候选 实体 之 间 的 关系 路 径 。 然 而 , 这 
是 相当 耗 时 且 很 难 实际 操作 的 。 因 为 在 这 样 的 操作 下 ,我 们 必须 为 每 一 个 测试 三 元 组 迭 
A E 中 的 每 一 个 候选 实体 ,并 寻找 相应 的 关系 路 径 。 这 里 , 我 们 采用 一 种 重 排 序 方 
YE: 首先 根据 TransE 计算 的 得 分 对 所 有 候选 实体 进行 排名 , 然后 对 排名 在 前 500 的 实体 
使 用 PTransE 进行 评分 , 并 重新 排名 。 对 于 PTransE 而 言 , 根据 验证 集中 的 平均 排名 来 
找到 最 佳 超 参数 。PTransE 的 最 佳 参数 配置 是 入 = 0.001, y=1, k= 100, XH L 距离 。 
在 训练 时 ， 限 定 训练 轮 数 为 500 轮 。 

实体 预测 的 评测 结果 如 表 2.5 所 示 。 基 线 模 型 有 RESCAL |), SE l, SME (28 
PE) 474、SME ONTE) 27, LEM O, TransE 9, TransH 894 和 TransR 13。 对 于 


表 2.5 ”实体 预测 的 评测 结果 


‘cine 平均 排名 十 命中 素 (%) 
原始 Was 原始 过 滤 
RESCAL 828 683 28.4 44.1 
SE 273 162 28.8 39.8 
SME (linear) 274 154 30.7 40.8 
SME (bilinear) 284 158 31.3 41.3 
LFM 283 164 26.0 33.1 
TransE 243 125 34.9 47.1 
TransH 212 87 45.7 64.4 
TransR 198 77 48.2 68.7 
TransE (Our) 205 63 47.9 70.2 
PTransE (ADD, 2-step) 200 54 51.8 83.4 
PTransE (MUL, 2-step) 216 67 47.4 ror 
PTransE (RNN, 2-step) 242 92 50.6 82.2 


PTransE (ADD, 3-step) 207 58 51.4 84.6 
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PTransE, 我 们 考虑 关系 路 径 表 示 的 3 种 组 合 操作 : 加 法 (ADD)、 乘 法 MUL) 和 递归 
神经 网 络 (RNN)。 在 实验 中 , 我 们 考虑 至 多 两 步 或 三 步 的 关系 路 径 。 我 们 也 目 发 实现 了 
TransE， 在 相同 的 参数 配置 下 ， 实 现 的 TransE 性 能 显著 高 出 Bordes 等 人 9) 在 论文 中 
报告 的 结果 。 

从 表 2.5 H, 我 们 观察 到 : 

(1) PTransE 显 闭 优 于 包括 TransE 在 内 的 其 他 基线 模型 。 这 表明 关系 路 径 为 知 
识 图 谱 的 表示 学 习 提 供 了 一 个 很 好 的 信息 补充 , 并 且 这 些 知识 图 谱 中 的 关系 路 径 已 经 被 
PTransE 成 功能 入 低 维 空间 之 中 。 PI, 乔治: 沃克 :布什 和 亚伯拉罕 .林肯 都 是 美国 
的 总 统 ， 其 在 TransE 中 展现 出 类 似 的 和 藤 入 。 这 可 能 会 扰乱 TransE HAH- MRE: A 
什 配偶 的 预测 。 相 反 , 由 于 PTransE 刻画 了 关系 路 径 ， 它 可 以 利用 乔治 : 沃克 … 布什 和 
劳 拉 ' 威尔士 :布什 之 间 的 关系 路 径 信 息 ， 并 据 此 做 出 更 准确 的 预测 。 

(2) 对 于 PTransE， 加 法 操作 在 均值 排名 和 十 命中 率 中 均 优 于 其 他 组 合 运算 。 原 因 
是 , 加 法 操作 同时 符合 TransE 和 PTransE 的 学 习 目 标 。 以 h => e >t 为 例 , 两 个 直接 
关系 的 优化 目标 由 +m = el M e +r =t 上 可 以 很 容易 地 导出 路 径 的 目标 htritre = to 

(3) RZA REA PMZ PRAEH] PTransE 能 达到 可 比拟 的 结果 ,这 表明 考虑 过 
长 的 天 系 路 任 对 最 终 的 结果 影响 不 大 。 

我 们 对 关系 进行 分 类 ,分 为 单 对 单 (1-to-1)、 单 对 多 (1-to-N)、 多 对 单 (N-to-1)、 多 
对 多 (N-to-N) 4 类 , 并 对 PTransE 和 一 些 基线 模型 在 四 类 关系 上 的 结果 进行 了 更 细致 
的 评测 ,结果 如 表 2.6 所 示 。 观察 结果 同样 表明 , 在 所 有 的 关系 类 型 中 , PTransE 显 若 且 
一 致 地 取得 了 提升 效果 。 


2. 关系 预测 


关系 预测 由 在 预测 给 定 的 两 个 实体 之 间 的 关系 。 我 们 同样 在 FB15K 上 进行 该 项 评 
训 。 由 于 我 们 实现 的 TransE 已 经 在 实体 预测 的 所 有 基线 模型 比较 中 取得 了 最 佳 性 能 , 所 
以 我 们 直接 将 PTransE 与 我 们 自发 实现 的 TransE 进行 比较 。 评 佑 结果 如 表 2.7 所 示 。 
为 与 实体 相 比 ， 关 系 的 数量 要 小 得 多 ,日 TransE 和 PTransE 的 十 命中 率 指 标 均 超过 了 
95% ， 因 而 列举 一 命中 率 而 不 是 十 命中 率 来 进行 比较 。 在 表 2.7 中 ,我 们 给 出 了 诸多 模 
型 的 结果 ， 包 括 不 售 逆 回头 系 的 TransE (TransE)、 人 含有 道 回 关系 的 TransE (Rev), 
简单 考虑 关系 路 径 的 TransE (+Rev+Path)。 针 对 PTransE， 我 们 也 对 去 除 图 谱 结构 信 
ik (一 TransE) 与 去 除 路 径 信 息 〈《-Path) 两 种 情况 进行 了 相应 出 试 。 用 于 关系 预 删 的 
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PTransE 的 最 佳 参数 配置 与 用 于 实体 预测 中 最 佳 参数 是 一 致 的 : 入 = 0.001, y= 1, k= 
100, 且 采 用 了 Li 距离 。 


表 2.6 ”对 关系 分 类 后 在 FB15K 上 的 评测 结果 
评 训 指标 KEE MT ait FE (%) 尾 实体 预测 十 命中 率 (%) 
关系 类 别 1l-to-l 1-to-N N-to-l N-to-N ltol lto-N N-to-l N-to-N 
SE 35.6 62.6 17.2 37.5 34.9 14.6 68.3 41.3 
SME (linear) 35.1 53.7 19.0 40.3 32.7 14.9 61.6 43.3 
SME (bilinear) 30.9 69.6 19.9 38.6 28.2 13.1 76.0 41.8 
TransE 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 
TransH 66.8 87.6 28.7 64.5 65.5 39.8 83.3 67.2 
TransR 18.8 89.2 34.1 69.2 19.2 37.4 90.4 72.1 
TransE (Our) 74.6 86.6 43.7 70.6 71.5 49.0 85.0 72.9 
PTransE (ADD, 2-step) 91.0 92.8 60.9 83.8 91.2 74.0 88.9 86.4 
PTransE (MUL, 2-step) 89.0 86.8 57.6 79.8 87.8 71.4 (2.2 80.4 
PTransE (RNN, 2-step) 88.9 84.0 56.3 84.5 88.8 68.4 81.5 86.7 
PTrasnE (ADD, 3-step) 90.1 92.0 58.7 86.1 90.7 70.7 87.5 88.7 
AR 2.7 中 , 我 们 观察 到 : 
表 2.7 关系 预测 的 评测 结果 
评测 指标 平均 排名 一 命中 率 (%) 
原始 过 滤 原始 过 滤 
TransE (Our) 2.8 2.5 65.1 84.3 
+Rev 2.6 2.3 67.1 86.7 
+Rev+Path 2.4 1.9 65.2 89.0 
PTransE (ADD, 2-step) 1.7 1.2 69.5 93.6 
—TransE 135.8 135.3 51.4 78.0 
—Path 2.0 1.6 69.7 89.0 
PTransE (MUL, 2-step) 2.5 2.0 66.3 89.0 
PTransE (RNN, 2-step) 1.9 1.4 68.3 93.2 
PTransE (ADD, 3-step) 1.8 1.4 68.5 94.0 


(1) PTransE 在 关系 预测 上 要 显著 优 于 TransE+Rev+Path, 预测 错误 率 下 降 了 41.8%。 

(2) 即 使 TransE AE, 考虑 关系 路 径 的 TransE+Rev+Path 与 不 考虑 路 径 的 TransE 十 
Rev 相 比 , 在 测试 中 也 可 以 减少 17.3% 的 预测 错误 率 。 这 表明 对 关系 路 径 进 行 建 模 有 利 
FRA TH 
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(3) 仅 考虑 关系 路 和 任 而 没有 图 谱 符 征 的 模型 (PTransE-TransE) 的 答案 平均 排名 非常 
高 。 考 虑 其 中 的 原因 ， 主 要 是 测试 三 元 组 中 并 非 所 有 实体 对 之 间 都 有 关系 路 径 ， 这 将 导 
致 模型 对 关系 进行 随机 猜测 ， 正 确 答案 的 排名 期 望 值 为 |RR|/2。 与 之 相对 的 是 PTransE- 
TransE 的 一 命中 率 结果 比较 合理 , 这 说 明 建 模 关 系 路 径 对 知识 图 谱 表 示 学 习 是 具有 重要 
意义 的 。 与 TransE HE, 不 考虑 图 谱 特 征 的 PTransE-TransE 还 是 具有 劣势 的 ， 这 表明 
虽然 建 模 关系 路 径 有 利于 获取 实体 之 间 的 关系 , 但 图 谱 本 身 的 实体 表示 为 关系 预测 提供 
了 关键 信息 ,是 必 不 可 少 的 特征 。 


3. 文本 关系 抽取 


文本 关系 抽取 旧 在 从 纯 文本 中 提取 关系 事实 以 丰 定 现 有 知识 图 谱 。 已 有 的 工作 主要 
立足 于 使 用 大 规模 知识 图 谱 作 为 远程 监督 信号 ， 自 动 地 给 句子 打 标 签 以 获得 训练 实例 ， 
进而 用 自动 标注 的 数据 训练 关系 分 类 器 。 所 有 这 些 方法 仅 基 于 纯 文 本 来 推理 新 的 事实 。 
TransE 曾 被 用 来 与 基于 文本 的 关系 抽取 模型 进行 结合 ， 并 取得 了 显著 的 效果 296, 
TransH [194 和 TransR 013 也 进行 了 同样 的 工作 。 在 此 任务 中 ， 我 们 探索 利用 PTransE 
与 文本 关系 抽取 模型 进行 结合 ， 从 文本 中 提取 实体 之 间 的 关系 。 

我 们 使 用 Riede 等 人 4359 发 布 的 纽约 时 报 语料库 NYT) 作为 训练 实测 和 测试 数 
Hio NYT 将 Freebase 与 《纽约 时 报 》 的 文章 对 齐 ， 其 中 有 53 类 关系 ( 包 插 无 关系 , 记 作 
NA 和 121 034 个 用 于 训练 的 实体 对 。 我们 在 NYT 与 Freebase 对 齐 的 基础 上 , 对 图 谱 进 
行 了 拓展 , 构建 出 FB40K, 其 中 包括 NYT 中 提 及 的 所 有 实体 和 1 336 种 关系 。 

在 实验 中 , 我 们 实现 了 Weston 等 人 139 提出 的 关系 抽取 模型 Sm2r, 并 将 其 作为 基 
线 方法 。 将 TransE 和 PTransE 用 于 学 习 时 ,我们 设置 实体 与 关系 的 维度 为 有 = 50, 学 
习 率 为 和 = 0.001， 训 练 边界 值 为 y = 1.0， 并 采用 了 L 距离 。 我 们 还 与 Surdeanu 等 
人 182] 提出 的 MIMLRE 模型 进行 比较 , 这 是 使 用 远程 监控 的 经 典 算法 。 各 模型 在 关系 
抽取 任务 上 的 精度 -召回 率 曲线 如 图 2.5 所 示 。 

从 图 2.5 F, 我 们 可 以 看 到 : 

通过 与 基于 文本 的 模型 Sm2r 相 结 合 ，PTransE 的 精度 明显 优 于 TransE， 且 高 于 朴 
素 的 Sm2r 算法 的 结果 。 这 表明 编码 关系 路 任 对 从 文本 中 提取 关系 也 上 其 有 效果 。 需 要 注 
意 的 是 ， 此 处 使 用 的 TransE 没有 考虑 逆 同 关系 和 关系 路 和 任 ， 因 此 性 能 提升 不 明显 。 我 
们 认为 ， 导 致 这 种 现象 的 主要 原因 如 下 : 在 知识 图 谱 补 全 任务 中 , 每 个 测试 实体 对 之 间 
全 少 舍 有 一 个 有 效 关 系 。 相 反 ， 在 这 个 任务 中 ,许多 的 测试 实体 对 之 间 没 有 关系 〈 即 天 
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系 为 NA)， 但 这 些 无 关系 实体 对 之 间 存 在 在 干 关 系 路 径 。TransE 在 训练 阶段 并 不 会 如 
PTransE 一 般 对 关系 路 径 进 行 编码 ， 这 会 在 测试 阶段 考虑 关系 路 径 时 导致 预测 无 关系 的 
性 能 更 差 , 抵消 了 对 于 确实 存在 关系 的 三 元 组 的 改进 。 这 表明 对 关系 路 径 进 行 编码 并 非 
十 分 容易 ， 同 时 证 实 了 PTransE 的 有 效 性 。 


1a 


0 0.05 0.1 0.15 0.2 


图 2.5 各 模型 在 关系 抽取 任务 上 的 精度 -名 回 率 曲 线 


4. 关系 推理 的 个 案 研 究 


实验 结果 表明 ，PTransE 可 以 实现 高 性 能 的 知识 图 谱 补 全 和 文本 关系 抽取 。 在 本 节 
中 , 我 们 给 出 一 些 在 关系 路 径 上 进行 关系 推断 的 例子 。 如 图 2.6 所 示 , 两 个 实体 阿 甘 正 传 


2.6 ”Freebase 中 的 一 个 推理 例子 
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和 英语 通过 3 条 关系 路 径 连 接 起 来 , 这 使 我 们 更 有 把握 预测 两 个 实体 之 间 的 关系 一 一 电 


影 语言 。 


2.4.3 h% 


EAT, 我 们 提出 了 PTransE, 这 是 一 种 知识 图 谐 的 新 型 表示 学 习 方法 。PTransE 
通过 编码 关系 路 径 将 实体 和 关系 嵌入 一 个 低 维 空 间 之 中 。 为 了 利用 关系 路 径 ， 我 们 提出 
了 路 径 约 束 的 资源 分 配 算 法 来 衡量 关系 路 径 可 靠 性 , 并 且 使 用 关系 的 语义 复合 算法 来 表 
示 路 径 以 便 对 模型 进行 优化 。 我 们 评估 了 PTransE 在 知识 图 谱 补 全 任务 和 文本 关系 抽取 
任务 上 的 表现 。 实验 结果 表明 , 与 TransE 和 其 他 基线 模型 相 比 ,PTransE 表现 出 了 一 致 
有 目 显 闭 的 改进 效果 , 验证 了 基于 关系 路 径 建 模 的 知识 表示 学 习 模 型 的 有 效 性 。 
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TransE 模型 的 最 大 局 限 是 无 法 准确 地 建 模 一 对 多 、 多 对 一 和 多 对 多 关系 , 这 促使 我 
们 认真 审视 知识 图 谐 关 系 的 多 样 性 特征 ,以 寻求 针对 此 问题 的 改进 方案 。 通 过 观察 发 现 ， 
在 许多 大 规模 知识 图 谱 中 ， 关系 可 以 划分 为 两 大 类 , 一 类 关系 指示 实体 的 特征 ( 尾 实体 
通 肖 是 抽象 概念 ,如 性 别 和 职业 ), 而 为 一 类 大 系 则 指示 实体 之 间 的 联系 ( 头 尾 实体 都 是 
真实 世界 的 物体 ), 我 们 将 二 者 分 别 命名 为 属性 和 关系 。 一 些 典 型 的 属性 、 关系 与 它们 相 
应 的 映射 属性 之 间 的 关系 如 表 2.8 所 示 。 表 2.8 同时 还 列 出 了 每 个 头 实体 对 应 的 尾 实体 
的 期 望 数 量 及 每 个 尾 实 体 对 应 的 头 实 体 的 期 户 数 量 。 


表 2.8 一些 典 型 的 属性 、 关 系 与 它们 相应 的 映射 属性 之 间 的 关系 


关系 类 型 关系 尾 实体 期 望 数 量 头 实体 期 望 数量 
属性 国籍 1.05 1 551.90 
性 别 1.00 637 333.33 
种 族 1.12 41.52 
We 1.09 107.40 
关系 父母 1.58 1.67 
首都 1.29 1.42 
作者 1.02 2.17 


成 立 者 1.37 1.31 


40 | 知识 图 谱 与 深度 学 习 


如 表 2.8 所 示 , 属性 是 一 对 多 关系 和 多 对 一 关系 的 主要 来 源 。 例如 , 在 属性 性 别 中 ， 
属性 值 男性 是 一 个 与 数 百 力 表 示人 的 实体 相关 的 存在 。 对 于 这 些 关 系 , TransE 及 其 扩展 
(如 TransH 9°) 和 TransR 3 ) 是 无 法 在 实体 及 其 属性 值 之 间 充 分 构建 位 移 的 , 这 也 是 之 
前 模型 对 于 一 对 多 关系 和 多 对 一 关系 效果 始终 欠缺 的 因素 之 一 。 因 此 , 我 们 认为 将 两 种 
类 型 的 实体 关系 用 不 同 的 方法 分 别 建 模 将 有 助 于 知识 表示 模型 对 复杂 关系 的 建 模 能 力 。 
在 此 思想 的 引 寻 下 ,我 们 提出 了 KR-EAR 模型 。 


2.5.1 算法 模型 


如 图 2.7 Aras, Ay 和 Ao 是 两 个 属性 , 分 别 有 值 域 Vi 和 Vs。 在 传统 知识 表示 模型 
中 [图 2.7(a)], 属性 A, 和 4， 被 视 作 普通 的 关系 ra An, MoKA Wa. KR-EAR 
图 2.7(b)] 将 属性 预测 视 作 分 类 问题 。 


(a) 传统 知识 表示 模型 (b) KR-EAR 
图 2.7 传统 知识 表示 模型 和 KR-EAR 的 例子 


具体 地 ， 一 般 的 实体 关系 集合 被 划分 为 关系 集合 R 和 属性 集合 4 = {41, Ar, 
4 }， 其 中 每 个 属性 集合 A; 对 应 一 个 值 域 集合 VV， 训练 集 也 被 划分 为 关系 三 元 组 集 
SCEXRXEMYSEXAXVe BRAEMRA X 时 关系 三 元 组 和 属性 三 元 组 条 件 独 
立 ,， 则 训练 集 上 的 似 然 值 为 


P(S,Y | X) = P(S | X)P(Y | X) 
= [| Phr IX) [| P((eav) |X) (2.18) 


(h,r,t)Es (e,a,vyEY 
大 量 现 有 表示 学 习 模 型 可 以 直接 被 用 于 建 模 关 系 三 元 组 部 分 的 条 件 概 率 Phr, t) |X), 
包括 TransE, TransR, TransD, TranSparse, KG2E, PTransE 等 。 我们 在 实验 中 尝试 了 
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TransE 和 TransR 两 种 模型 , 在 此 我 们 不 做 过 多 殉 述 。 
而 P((e,a,v) | X) 使 用 分 类 模型 进行 建 模 ， 即 
exp(h(e, a, v)) 


P((e,a,v) | X)« Plv|e,a,xX) = 2.19 
((e,a,v) | X) x P(v | ) 5 exp(h(e, a 8) (2.19) 
BEVa 
其 中 , 评分 函数 为 
hle, a, v) -_ —||f(Wae T ba) = V avl £1/L2 + 6 (2.20) 


其 中 , e, Va 分 别 为 实体 和 属性 值 的 代入 ，j) 为 非 线 性 激活 函数 。 
属性 和 关系 的 划分 方便 了 对 属性 之 则 关联 的 建 模 。 我 们 在 实验 中 妾 试 了 将 
P((e,a,v) | X) FRA 


P((e,a,v) | X) x P(v|e,a,X)P((e,a,v) | Y(e)) (2.21) 


HHA, P((e,a,v) | Y(e)) 为 在 给 定 实体 e 的 其 他 属性 时 属性 三 元 组 (e,a,v) NRA, ER 
定义 为 Softmax AR 

exp(z(e, a, v, Y(e)) 
>», exp(z(e, a, 6, Y(e))) 
DEVa 
FLA, 2) 是 一 个 衡量 属性 则 预测 相关 性 的 得 分 函数 。 它 综合 了 (ea,u) 与 每 一 个 包含 在 
Y(e) 中 的 属性 三 元 组 之 间 的 相关 性 。 


P((e,a,v) | Y(e)) = (2.22) 


2(e,a,v,Y(e))x > Pl((a,v) | (@,6))(Aa Aa) (2.23) 
(e,a,0)EY (e) 
其 中 , (4。4a) 是 Aa 与 Aa 的 点 积 , 表示 属性 Aa Aa 之 间 的 相关 程度 。 P((a,v) | (€,0)) 
是 由 训练 数据 的 每 个 实体 得 到 的 在 给 定 (4,0) 时 属性 值 (a,v) 的 条 件 概 率 ， 表示 属 性 值 
(a,v) 和 (4,6) 间 的 相关 性 。 


2.5.2 ”实验 分 析 


我 们 使 用 数据 集 FB24K 评估 我 们 的 模型 和 基线 模型 在 知识 图 详 补 全 任务 中 的 表现 。 
我 们 将 知识 图 详 补 全 分 为 实体 预测 、 关 系 预 测 和 属性 预测 3 个 子 任务 , 并 分 别 对 其 展示 
和 讨论 实验 结案 。 
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1. 实体 预测 


我 们 沿用 了 文献 [19] 中 的 两 种 评测 指标 : 所 有 正确 实体 的 平均 排名 (mean rank) 和 
排名 前 十 的 候选 实体 中 正确 实体 的 比例 (hits@10). 值得 一 提 的 是 , 对 于 一 个 特定 的 三 元 
组 (hrt) 其 负 采 样 的 三 元 组 也 可 能 存在 于 知识 图 谱 中 ,其 也 应 被 视 为 有 效 。 对 于 将 其 
他 有 效 三 元 组 排 得 比 (hy r,t) 更 高 的 可 能 性 ， 上 述 两 种 评测 指标 可 能 是 不 公平 的 。 因 此 ， 
我 们 在 进行 排序 前 过 滤 反 了 所 有 其 他 有 效 三 元 组 。 同 文献 [19] 一 样 , 我 们 将 经 过 了 过 小 
的 版 本 命名 为 “过 滤 ”", 将 未 经 过 小 的 版 本 命名 为 “原始 ”"。 实 体 预 测 的 评测 结果 如 表 2.9 
所 示 。 从 表 2.9 中 , 我 们 观察 到 ; 

(1) KR-EAR 在 平均 排名 指标 下 稳定 地 显著 优 于 基线 方法 , 包括 TransE、TransH 和 
TransR。 这 表明 KR-EAR AZAMARA SY BEN kA EK 

(2) 在 十 命中 率 指 标 下 ，KR-EAR (TransE) 优 于 TransE, KR-EAR (TransR) 优 于 
TransR。 这 表明 KR-EAR 可 以 很 好 地 利用 传统 的 知识 表示 模型 。 


表 2.9 ”实体 预测 的 评测 结果 


属性 头 实体 预测 尾 实 体 预 测 合计 
评测 指标 平均 排名 ”十 命中 率 (%) ”平均 排名 ”十 命中 率 (%) ”平均 排名 ”十 命中 率 (%) 
TransE 385 277 20.2 39.2 134 124 514 66.7 259 200 35.8 53.0 
TransH 416 309 17.7 354 147 138 500 65.0 282 224 339 50.2 
TransR 394 285 205 41.2 125 116 534 71.0 260 200 37.0 56.1 
KR-EAR(TransE) 295 198 22.7 396 77 469 542 695 186 133 38.5 54.5 
KR-EAR(TransR) 268 170 23.4 43.0 75 66 55.7 71.5 172 118 39.5 57.3 


2. KARIM 


关系 预测 旨 在 推断 两 个 给 定 实体 之 间 的 可 能 关系 。 对 每 一 个 测试 三 元 组 (hr, t R 
们 用 知识 图 谱 中 每 个 可 能 的 关系 f 替换 它 的 关系 "， 并 计算 得 分 。 之 后 ,我 们 按照 得 分 
升序 计算 知识 图 谱 中 所 有 候选 关系 的 名 次 。 类 似 地 , 我 们 使 用 了 平均 排名 和 一 命中 率 两 
种 评测 指标 。Krompass 等 人 103) 的 研究 显示 , 通过 潜在 变量 模型 ,类 型 约束 通常 可 以 文 
持 多 关系 数据 建 模 。 我 们 认为 实体 的 类 型 信息 是 实体 属性 的 特例 。 在 KR-EAR 中 , 我 们 
可 以 很 容易 地 采用 头 尾 实体 的 属性 之 间 的 约束 进行 关系 预测 , 这 被 称 为 CRA. 关系 预测 
的 评估 结果 如 表 2.10 所 示 。 
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表 2.10 ”关系 预测 的 评测 结果 


评测 指标 平均 排名 一 命中 率 (%) 
原始 过 滤 原始 WE 
Trans 3.1 2.8 65.9 83.8 
TransH 3.4 3.1 64.9 84.1 
‘TrasnkR, 3.4 3.1 65.2 84.5 
KR-EAR(TransE) 2.4 al 67.9 86.2 
+ CRA 1.8 1.6 70.9 88.7 
KR-EAR(TransR) 2.6 2.2 66.8 89.0 
+ CRA 1.9 1.6 71.5 90.4 


从 表 2.10 中 , 我 们 观察 到 : 

(1) KR-EAR 在 平均 排名 和 一 命中 率 下 再 次 优 于 基线 方法 ， 而 TransE、TransH 和 
TransR 在 这 个 子 任务 中 取得 了 接近 的 绪 果 。 

(2) 对 于 KR-EAR (TransE) 和 KR-EAR (TransR), CRA 可 以 进一步 将 一 命中 率 
提高 2.5% 和 1.4% ， 同 时 可 以 降低 平均 排名 。 这 证 明了 在 关系 预测 中 考虑 实体 属性 的 有 
效 性 。 


3. 属性 预测 


属性 预测 的 目标 是 预测 实体 的 缺失 属性 。 这 个 任务 在 先前 的 一 些 研 究 中 被 当 作 实体 
预测 的 一 部 分 09,113,185。 对 于 每 个 测试 三 元 组 (e,a,v), 我 们 用 每 个 可 能 的 属性 值 oF 
代 wv， 并 计算 相应 得 分 o(h(e,a,D))。 之 后 , 我 们 按照 得 分 升序 计算 知识 图 谱 中 所 有 候选 
值 的 名 次 。 

注意 到 ,通过 将 属性 值 按照 o(h(e,a,é)). o(z(e,a,6,Y(e))) 排序 ，KR-EAR 还 可 以 
加 入 对 属性 相关 性 (AC) 的 考虑 。 我 们 使 用 两 种 属性 预测 的 评估 指标 : 平均 排名 和 一 命 
中 率 。 属 性 预测 的 评测 结果 如 表 2.11 所 示 。 

从 表 2.11 中 , 我 们 可 以 看 出 : 

(1) KR-EAR 仍然 明显 优 于 基线 方法 。 这 验证 了 在 传统 知识 表示 模型 中 将 属性 预测 
建 模 为 分 类 而 不 是 位 移 的 必要 性 。 

(2) 对 于 KR-EAR (TransE) 和 KR-EAR (TransR), 考虑 属性 相关 性 可 以 分 别 将 一 
命中 率 提 升 1.4% 和 1.0% 。 这 表明 属性 相关 性 在 属性 预测 中 是 有 效 的 。 
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表 2.11 属性 预测 的 评测 结果 


评测 指标 平均 排名 一 命中 率 (%) 
原始 Wie 原始 过 滤 
TransE 10.7 5.6 36.5 99.9 
TransH 10.7 5.6 38.9 57.9 
TrasnR 9.0 3.9 42.7 65.6 
KR-EAR(TransE) 8.3 3.2 47.2 69.0 
+AC 7.5 3.0 49.4 70.4 
KR-EAR(TransR) 8.3 3.2 47.6 69.8 
+AC 7.5 3.0 49.8 70.8 


K 2.12 给 出 了 一 些 KR-EAR 在 FB24K 训练 集 上 得 到 的 属性 相关 性 的 例子 。 可 以 
发 现 ， 在 给 定 一 个 属性 时 ， 预 测 得 到 的 相关 属性 常 弟 反映 符合 常理 的 相关 性 。 这 表明 
KR-EAR 可 以 有 效 捕获 属性 之 间 的 相关 人 性。 


表 2.12 属性 相关 性 的 例子 


属性 相关 属性 
职业 婚姻 状况 , 国籍 , 性 别 , 语言 , 种 族 
电影 发 行 地 电影 的 国家 ,电影 的 语言 , 电影 的 发 行 日 期 , 电影 的 类 型 
地 区 的 时 区 地 区 所 属国 家 , 地 区 通行 货币 
2.5.3 ”小结 


FEAT, 我们 将 现 有 的 知识 图 谱 关 系 分 为 属性 和 关系 ， 并 提出 了 一 个 具有 实体 、 
属性 和 关系 的 新 的 知识 表示 模型 (KR-EAR)。 另 外 , 我 们 还 在 KR-EAR 中 对 实体 、 属性 
之 间 的 相关 性 进行 了 编码 。 在 实验 中 , 我 们 对 模型 在 3 个 子 任务 (预测 实体 、 关 系 和 属 
性 ) 中 的 表现 进行 了 评估 。 通 过 显 式 地 建 模 ,KR-EAR 在 3 个 子 任务 中 都 稳定 地 显著 优 
于 最 新 的 知识 表示 模型 。 


2.6 ”融合 实体 描述 信息 的 知识 表示 学 习 


实体 描述 是 对 实体 目 身 信息 的 浓缩 精练 的 文字 性 介绍 , 通常 由 儿 句 话 或 者 一 个 段落 
组 成 。 实 体 描 述 的 来 源 十 分 丰 语 ， 既 可 以 在 知识 图 谱 构 建 过 程 中 由 人 工 填 号 ， 也 可 以 提 
取 目 百科 类 数据 库 的 既 有 信息 ,还 能 从 丰富 的 网 页 文本 中 抽取 。 SEAS HI i AF AY 
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实体 信息 , 这 些 信 息 能 够 作为 知识 图 谱 中 置信 和 眼 较 局 的 结构 化 信息 的 辅助 信息 , 儿 助 模 
型 构建 更 准确 的 知识 表示 。 图 2.8 给 出 了 在 维基 百科 中 关于 威廉 莎士比亚 的 一 段 实体 
描述 节选 。 从 图 中 我 们 可 以 看 到 , 威廉 莎士比亚 的 实体 描述 中 强 含 了 该 实体 各 个 方面 
的 丰富 信息 , 如 国籍 、 职 业 、 作 品 、 出 生地 等 , 这 种 实体 朱 述 可 以 很 好 地 作为 知识 图 谐 中 
己 有 结构 化 信息 的 辅助 与 补充 ,提供 更 加 深入 的 细节 描述 ， 甚 至 能 挖掘 知识 图 谱 中 可 能 
遗 洗 的 新 知识 。 可 以 想到 ,如 朱 我 们 能 够 将 此 部 分 信息 智能 地 抽取 并 融入 知识 表示 学 习 
中 , 知识 表示 的 性 能 将 会 得 到 明显 的 提升 。 


威廉 ' YPE FEME 


| 威廉 -莎士比亚 …… 是 英国 文学 史上 最 杰出 的 戏剧 家 ， 是 西方 文艺 史上 最 杰出 的 作家 之 一 ， 也 是 全 
世界 最 卓越 的 文学 家 之 一 。 他 流传 下 来 的 作品 包括 38 部 戏剧 、2 首 长 叙事 诗 、154 首 十 四 行 诗 和 其 


他 诗歌 …… 东 士 比 亚 于 雅芳 河畔 斯 特 拉 特 福 出 生 并 长 大 ， 在 18 岁 时 与 安妮 ， 哈 登 维 结婚 ， 共 生育 
了 三 个 孩子 renee BLUM MR, WSS SL, IR (ERE) GRS) A 
UES) A CSE) 等 ， 其 被 认为 是 瑞 语 最 佳 范例 。 


图 2.8 实体 描述 节选 示例 


我 们 从 上 述 思 路 出 发 , 围绕 以 下 两 个 主要 挑战 , 提出 了 融合 实体 插 述 的 知识 表示 和 学 
J (Description-embodied Knowledge Representation Learning, DKRL) 模型 。 

。 WE ASE RHI A Th A ey AY SE RA. SERFS ETE TE KE. 有效 
(a. REPA HR eS ERS AH, 这 要 求 模 型 考虑 差异 化 的 文本 
输入 ， 自 动 从 实体 描述 中 获取 高 质量 的 知识 信息 ， 同 时 减少 文本 中 无 用 信息 的 干 
扰 。 

。 当 模 型 抽取 到 高 质量 的 实体 相关 知识 后 , 如 何 将 这 些 基 于 实体 描述 的 文本 信息 与 
基于 知识 图 谱 三 元 组 的 结构 化 信息 融合 , 即 如 何 实现 文本 空间 与 知识 空间 的 对 齐 
与 联合 训练 。 


2.6.1 算法 模型 


图 2.9 给 出 了 DKRL 模型 整体 架构 的 简单 图 示 。 如 图 2.9 Prax, DKRL 模型 以 实体 
描述 为 输入 ,通过 实体 描述 编码 器 得 到 实体 基于 描述 的 表示 。 在 顶层 ， 基于 描述 的 表示 
与 基于 结构 的 表示 在 统一 的 平移 模型 框架 下 进行 学 习 。 
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头 实体 的 撒 述 尾 实体 的 描述 
图 2.9 DKRL 模型 整体 架构 的 简单 图 示 


DKRL 沿用 了 TransE 中 的 平移 假设 思想 。 为 了 对 文本 空间 与 知识 空间 的 表示 进行 
联合 训练 , DKRL 的 能 量 函 数 对 二 者 进行 了 融合 : 
E(h,r,t) = ay||hg +r — ts|| + ag||hg +r — tol (2.24) 
+a3||hp +r— ts || + a4||hp 十 人 一 tp || 
于 实体 插 述 文本 的 实体 表示 。 在 能 量 函 数 中 , ||hs +r 一 ts|| 部 分 与 平移 模型 的 能 量 函 数 
AAW, 而 hs +r -tolih hp 十 7 一 ts|| 和 hp 十 7 一 tp|l3 项 则 加 入 了 基于 摘 述 的 实体 问 
量 影响 。 这 样 ， 通过 混合 项 的 软 限制 ，DKRL 模型 将 实体 的 两 种 向 量 映射 到 了 同一 语义 
空间 中 ,并 共享 相同 的 关系 癌 量 。 
在 训练 过 程 中 ，DKRL 使 用 随机 生成 负 例 ， 使 用 最 大 间隔 方法 ,定义 如 下 优化 目标 
函数 : 
L= >}, >》 max(y+E(h,r,t)— E(h’,r’, t’), 0) (2.25) 
(hyr, t)ET (Ah yr’ t )ET' 
其 中 , T. 7! 分 别 为 知识 图 谱 中 的 关系 三 元 组 正 例 集 和 正 例 三 元 组 随机 蔡 换 任 一 元 素 得 
到 的 三 元 组 负 例 集 。 
在 模型 中 尝试 使 用 了 如 下 两 种 不 同 的 实体 描述 信息 表示 模型 。 
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。 连续 词 袋 模型 (CBOW): 根据 经 典 的 文本 特征 , 如 词 频 、TF-IDF ESF, SEH SE 
体 描述 中 最 具 信息 量 的 有 上 个 关键 词 , 将 它们 词 向 量 的 平均 值 作为 实体 的 文本 空间 
。 卷 积 神经 网 络 模 型 (CNN): 如 图 2.10 所 示 ， 实 验 中 使 用 两 层 卷 积 层 与 对 应 的 池 
化 层 及 非 线性 层 对 实体 描述 进行 建 模 , 最 后 一 层 池 化 层 将 信息 编码 为 一 个 固定 长 
度 的 同 量 。 我们 在 第 一 个 池 化 层 使 用 了 最 大 池 化 策略 , 而 在 第 二 层 使 用 了 平均 池 
化 策略 , 这 是 由 于 我 们 认为 第 一 层 对 应 句子 内 的 局 部 特征 , 需要 更 强 的 去 除 见 余 
和 噪声 的 能 力 , 而 第 二 层 对 应 文本 描述 全 局 的 特征 , 需要 每 个 句子 都 对 最 终结 果 


产生 页 献 。 
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2.10 ” 卷 积 神经 网 络 模型 示意 图 


2.6.2 ”实验 分 析 


我 们 使 用 FB15K 49 作为 实验 所 用 的 知识 图 谱 数据 。 为 了 测试 DKRL 模型 在 零 样 本 
场景 下 的 知识 表示 构建 效果 , 我 们 在 FB15K 的 基础 上 使 用 Freebase 对 测试 集 进行 扩展 ， 
构建 了 FB20K 数据 集 。FB20K 的 关系 集 、 训 练 集 、 验 证 集 与 FB15K 相同 , 但 测试 集 包 
括 了 大 量 训练 集中 未 出 现 的 实体 。 我 们 将 FB20K 的 测试 样 例 分 为 4 组 : e-e 组 表示 头 
实体 和 尾 实体 都 在 训练 集中 ; d-e 组 表示 仪 尾 实体 出 现在 训练 集中 ; e-d 组 表示 仪 头 
实体 出 现在 训练 集中 ; d-d 组 表示 头 实 体 和 尾 实体 都 未 出 现在 训练 集中 。 

我 们 使 用 两 种 实体 描述 编码 器 对 实体 描述 进行 建 模 ， 使 用 连续 词 袋 的 模型 记录 为 
DKRL(CBOW), 使 用 卷 积 神经 网 络 的 模型 记录 为 DKRL(CNN)。 对 于 连续 词 袋 模型 ， 使 
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用 TF-IDF 值 作 为 各 关键 词 的 评分 进行 排序 , 并 选择 前 20 个 关键 词 构 建 实 体 表 示 (如果 
描述 长 度 少 于 20, 则 选择 描述 中 全 部 的 词 作为 关键 词 )。 

为 了 充分 展示 DKRL 模型 学 到 的 基于 描述 的 知识 表示 的 效果 , 我 们 还 探索 了 模型 在 
AEA EE FIN FUR Ze FS ED RL. SHEA FS (zero-shot learning) 是 人 工 智 能 , 特 
别 是 深度 学 习 领 域 的 研究 热点 之 一 , 着 重 关 注 于 对 新 样 例 的 建 模 。 在 大 数据 时 代 , 文字、 
图 像 或 知识 等 领域 上 的 模型 通 第 是 数据 驱动 的 , 而 这 往往 需要 在 训练 时 对 某 类 样 例 进行 
成 百 上 千 的 学 习 。 例 如 , 在 知识 表示 学 习 任 务 上 ， 以 往 的 模型 大 多 要 求 测试 集中 的 实体 
曾 出 现在 训练 集中 , 以 学 得 实体 的 知识 表示 。 然 而 , 在 信息 爆炸 时 代 , 每 天 都 有 新 实体 与 
新 知识 的 出 现 ， 传 统 知 识 表 示 模 型 无 法 自动 获得 新 实体 的 表示 ， 可 拓展 性 差 。 我 们 提出 
的 DKRL 模型 能 够 根据 实体 的 描述 信息 〈 实 体 描述 信息 广泛 存在 于 互联 网 文本 中 )， 构 
建 知识 图 谱 中 没有 的 新 实体 基于 描述 的 知识 表示 , 是 零 样本 知识 表示 学 习 的 新 思路 。 

我 们 使 用 FB20K 数据 集 模拟 零 样本 知识 表示 学 习 的 环境 ， 在 知识 图 谱 补 全 与 实体 
类 型 分 类 两 个 任务 上 进行 零 样本 环境 的 评测 。FB20K 与 FB15K 有 着 相同 的 训练 集 与 验 
证 集 ， 而 在 测试 集中 ，FB20K AG 5 019 个 训练 集中 未 出 现 的 新 实体 。 对 于 这 些 新 实 
体 , 我 们 使 用 其 基于 摘 述 的 表示 作为 知识 表示 。 在 知识 图 谐 补 全 任务 中 , 我 们 主要 关注 对 
存在 新 实体 的 三 元 组 的 补 全 情况 。 在 实体 类 型 分 类 任务 中 , 我 们 主要 关注 新 实体 的 分 类 


1. 知识 图 谐 补 全 结 琳 与 分 析 


知识 图 谱 补 全 是 知识 表示 学 习 的 经 典 评测 任务 ”19,11 引 ,可 以 看 作 知 识 图 谱 上 的 链 
接 预 测 任 务 。 有 具体 地 ， 知 识 图 谱 补 全 任务 要 求 模 型 在 给 定 三 元 组 (h r,t) 的 某 一 实体 或 
关系 丢失 的 情况 下 , 利用 另外 两 个 对 象 正确 预测 出 丢失 的 实体 或 关系 。 根据 具体 丢失 的 
对 象 , 知识 图 谱 补 全 可 以 细 分 为 实体 预测 与 关系 预测 两 个 任务 。 知 识 图 谱 补 全 任务 则 在 
验证 所 学 知识 表示 的 准确 性 ,同时 与 现实 中 间 答 系统 的 实际 任务 相 呼 应 。 例如 ， 补 全 三 
元 组 (? ， 编 写 ， 哈 姆 雷 特 )， 即 相当 于 回答 “ 谁 编写 了 《哈姆雷特 》 这 本 书 ?” 这 个 
问题 。 

我 们 使 用 DKRL 模型 和 基线 模型 在 训练 集 上 学 习 到 的 知识 癌 量 , 对 测试 集 样 例 进行 
知识 图 谱 补 全 。 对 于 测试 集中 的 每 个 三 元 组 ,我 们 分 别 隐 藏 其 头 实 体 、 关 系 和 尾 实 体 来 
进行 实体 预测 和 关系 预测 。 由 于 DK RL 模型 和 基线 模型 都 基于 平移 假设 , 所 以 我 们 直接 
使 用 评分 函数 Sih, r, t) = |h +r -t| BEAT FADE. 例如 , 给 定 三 元 组 的 hh 和 7, 我 们 自 先 
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使 用 h+r 得 到 一 个 向 量 , 然后 在 所 有 实体 集合 € PRR htr 向 量 的 距离 进行 排序 ， 
得 到 预测 结果 。 为 了 更 好 地 展示 两 种 实体 表示 的 效果 , 在 评测 中 , DKRL(CBOW) 模型 和 
DKRL(CNN) 模型 均 只 使 用 实体 基于 描述 的 表示 进行 预测 ， 而 DKRL(CNN)+TransE 模 
型 使 用 实体 基于 描述 和 基于 结构 的 两 种 知识 表示 联合 进行 预测 。 

在 评测 中 ,我们 参考 了 Bordes 论文 中 提出 的 评测 方法 , 使 用 了 平均 排名 和 ON 命中 
率 两 个 指标 进行 评测 09), 其中, 平均 排名 表示 所 有 测 例 中 正确 答案 的 平均 排序 , 关注 知 
识 表示 的 整体 效果 ; 而 N 命中 率 表示 排名 前 N 的 答案 中 有 正确 答案 的 测 例 比 例 ， 关 注 
在 实际 任务 中 模型 补 全 的 实用 性 。 特 别 地 , 我 们 在 关系 预测 任务 中 使 用 一 命中 率 ， 在 实 
体 预 测 任务 中 使 用 十 命中 率 对 模型 进行 评测 。 评 测 结 果 分 别 如 表 2.13 和 表 2.14 所 示 。 


表 2.13 FB15K 上 实体 预测 的 评测 结果 


评测 指标 平均 排名 十 命中 率 (%) 
原始 过 滤 原始 过 滤 
TransE 210 119 48.5 66.1 
DKRL(CBOW) 236 151 38.3 51.8 
DKRL(CNN) 200 113 44.3 57.6 
DKRL(CNN)+TransE 181 91 49.6 67.4 
% 2.14 FB15K 上 关系 预测 的 评测 结果 
评测 指标 平均 排名 一 命中 率 (%) 
原始 过 滤 原始 wv 
TransE 2.91 2.53 69.5 90.2 
DKRL(CBOW) 2.85 2.51 65.3 82.7 
DKRL(CNN) 2.91 2.55 69.8 89.0 
DKRL(CNN)-+TransE 2.41 2.03 69.8 90.8 


从 结果 中 , 我 们 可 以 得 到 以 下 一 些 结论 。 

(1) 在 实体 预测 与 关系 预测 两 个 任务 上 ，DKRL(CNN)+TransE 模型 在 所 有 评测 指 
标 上 都 取得 了 最 好 的 结果 。 这 个 结果 说 明了 实体 描述 确实 缆 含 者 丰富 的 文本 信息 ， 而 这 
些 文本 信息 能 有 助 于 构建 更 好 的 知识 表示 。 同时 , 这 也 说 明了 卷 积 神经 网 络 编码 器 能 
智能 地 选择 实体 描述 中 有 信息 量 的 特征 ， 目 动 过 滤 可 能 的 噪声 。 具 体 地 , 平均 排名 评测 
指标 上 的 提升 ， 说 明 DKRL 模型 学 到 的 知识 表示 整体 效果 较 好 ; 而 N 命中 率 评 测 指标 
上 的 提升 , 则 说 明 DKRL 模型 对 于 知识 图 谱 的 补 全 任务 的 推荐 质量 更 高 。 
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(2) 对 比 两 种 实体 描述 编码 器 的 模型 结果 , 发 现 DKRL(CNN) 模型 的 结果 在 实体 预 
测 的 平均 排名 十 命中 率 指标 及 关系 预测 的 一 命中 率 指标 上 都 显著 地 优 于 DKRL(CBOW) 
模型 。 在 关系 预测 的 平均 排名 指标 上 ， 二 者 的 结果 也 是 相近 的 。 这 是 因为 与 连续 词 袋 模 
型 相 比 ， 卷 积 神经 网 络 不 仅 抓 住 了 词 级 别 的 语义 信息 ， 而 且 通 过 卷 积 操作 获得 了 局 部 的 
词 序 信息 。 另 外 ， 最 大 池 化 操作 使 得 编码 器 能 够 更 关注 局 部 特征 的 强 信 号 ， 避 免 长 篇 摘 
述 中 的 噪声 干扰 。 综 上 所 述 ， 虽 然 DKRL(CBOW) 模型 更 加 简单 快速 , 但 DKRL(CNN) 
模型 能 够 在 知识 图 谱 补 全 任务 上 获得 更 好 的 效果 。 

(3) 进一步 地 , 我 们 还 通过 样 例 分 析 证 实 了 有 时 仅 通 过 结构 信息 是 难以 抓 住 实体 相 
天 的 知识 细节 的 。 例 如 ， 如 果 知 识 图 谱 中 没有 直接 提 及 ， 我 们 很 难 仅 通过 有 限 的 三 元 组 
信息 回答 一 个 球员 到 底 是 前 锋 还 是 守门 员 这 种 细节 问题 ; 而 如 果 通 过 实体 描述 , 我 们 就 
可 以 在 文字 信息 中 挖掘 可 能 相关 的 知识 细节 (如 球员 在 比赛 中 的 表现 )， 从 而 给 出 正确 
的 回答 。 

(4) 融合 实体 摘 述 的 知识 表示 在 茶 些 评测 指标 上 , 相 比 基线 模型 的 提升 似乎 不 太 明 
显 。 这 是 因为 对 于 一 些 三 元 组 的 补 全 任务 , 仪 依 徘 结构 信息 就 能 达到 不 错 的 效果 。 男 外 ， 
由 于 实体 描述 中 存在 较 长 的 文本 , 仅 使 用 卷 积 神经 网 络 还 是 很 难 智能 地 抓 住 实体 相关 的 
每 个 细节 信息 。 使 用 更 好 的 实体 描述 编码 器 , 或 者 使 用 更 好 的 实体 基于 描述 的 表示 方法 ， 
可 能 会 是 模型 未 来 的 提升 点 。 除 此 之 外 ，DKRL 模型 在 新 实体 的 零 样 本 知识 表示 构建 任 
务 上 展示 出 了 它 的 能 力 , 而 这 是 传统 基于 结构 信息 的 知识 表示 学 习 模 型 难以 做 到 的 。 


2. 实体 类 型 分 类 结 采 与 分 析 


实体 类 型 分 类 任务 则 在 预测 一 个 实体 的 所 有 类 型 , 可 以 看 作 一 个 多 标签 分 类 的 问题 ， 
在 以 往 的 工作 中 也 常 被 研究 0 HA 大 多 数 大 规模 百科 或 知识 图 谱 都 维护 有 上 自己 的 
实体 类 型 (entity type) 信息 。 例 如 , Æ Freebase 中 ,莎士比亚 这 个 实体 即 有 作家 、 艺 术 
家 和 获奖 提名 人 等 实体 类 型 。 实体 类 型 分 类 任务 能 够 从 实体 类 型 的 粒度 上 证 明知 识 表 示 
的 有 效 性 。 

我 们 首先 从 Freebase 中 抽取 FB15K 训练 集中 所 有 实体 的 全 部 实体 类 型 ， 共 得 到 
4054 个 实体 类 型 。 由 于 这 些 类 型 分 布 具有 长 尾 性 , 有 相当 的 实体 类 型 仅仅 出 现 了 很 少 的 
次 数 , 所 以 我 们 按照 这 些 实体 类 型 在 对 应 数据 集 实 体 中 出 现 的 频次 从 高 到 低 排 序 , 选择 
频次 前 50 的 实体 闫 型 作为 符 分 类 的 实体 类 型 集 (去 除了 话题 这 个 头 型 , 因为 它 几 乎 出 现 
在 所 有 实体 的 类 型 列表 中 )。 前 50 的 实体 类 型 覆盖 了 13 445 个 实体 , 随机 将 这 些 实体 分 
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为 训练 集 与 测试 集 ， 其 中 训练 集 含有 12 113 个 实体 ,测试 集 含有 1 332 个 实体 。FB15K 
中 部 分 实体 类 型 及 其 对 应 频次 如 表 2.15 所 示 。 


表 2.15 FB15K 中 实体 类 型 及 其 对 应 频次 


排名 实体 类 型 频次 
1 人 4507 
2 奖项 提名 者 4042 
3 获奖 者 3571 
4 电影 演员 3381 
5 地 点 3184 


在 训练 时 , 我 们 使 用 基线 模型 和 DKRL 模型 训练 得 到 的 知识 表示 作为 实体 的 特征 问 
量 , 使 用 逻辑 斯 蒂 回 归 算 法 (logistic regression) 作为 分 类 器 , 并 使 用 一 对 其 他 (one-versus- 
rest) 的 训练 集 略 训练 多 标签 分 类 的 逻辑 斯 带 回 归 分 类 器 。 在 评测 中 ，DKRL(CBOW) {R 
型 和 DKRL(CNN) 模型 同样 只 使 用 实体 基于 摘 述 的 表示 作为 特征 癌 量 。 为 了 充分 显示 
DKRL 模型 的 优势 ,我 们 还 实现 了 一 个 基于 文本 的 经 和 典 词 袋 异 型 (BOW) 作为 补 元 基线 
模型 。 这 个 模型 基于 词 袋 模型 ， 使 用 实体 描述 中 词 的 TF-IDF 值 构建 特征 向 量 , 然后 使 
用 回归 算法 进行 分 类 。 

在 评测 指标 上 , 我 们 参考 相关 工作 的 设 定 , 使 用 平均 准确 率 均值 (Mean Average Pre- 
cision, MAP) 作为 评测 指标 Ol MAP 是 多 标签 分 类 任务 中 常用 的 评测 指标 之 一 , 在 信 
恩 检 索 等 领域 被 广泛 使 用 ,其 公式 为 
Q| 
2 AveP(i) (2.26) 

IQI 


其 中 , Q EMRE EIA, AveP(i) 是 第 i 个 测试 样 例 的 平均 准确 率 ， 有 


MAP = 


SPi(k) x correct;(k)) (2.27) 


AveP(i) = = 


TN; 


其 中 ,n 是 候选 类 型 的 个 数 , m EH i MUA SAA HSE ASL. FET. AveP(i) 
时 , 肖 先 将 各 候选 类 型 的 得 分 从 融 到 低 排序 ; 然后 依 序 判 断 是 否 是 正确 答案 。P;(k) 是 第 
i 个 测试 样 例 截至 第 个 候选 类 型 时 的 准确 率 ， 而 correct;(k) 函数 是 一 个 指示 函数 ， 当 
目 仅 当 第 上 个 候选 类 型 是 正确 党 案 时 correcti(k) 为 1， 其 余 情况 下 为 0。 
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FB15K 上 实体 类 型 分 类 的 评测 结果 如 表 2.16 所 示 , 我 们 分 析 DKRL 模型 在 FB15K 
数据 集 上 的 结果 , 得 到 了 以 下 绪论。 

(1) DKRL(CBOW) 模型 和 DKRL(CNN) 模型 在 MAP 评测 指标 上 均 能 显著 超过 
两 个 基线 模型 。 这 个 结果 从 另 一 个 侧面 证 明了 实体 描述 中 的 丰富 文本 信息 能 够 帮助 模 
型 建立 更 好 的 知识 表示 ， 从 而 为 实体 类 型 分 类 任务 提供 更 加 准确 的 指导 信息 。 我 们 认为 
DKRL 模型 在 实体 类 型 任务 上 的 优势 主要 来 源 于 联合 知识 图 谱 的 结构 信息 与 实体 描述 的 
文本 信息 。 这 是 由 于 与 DKRL 模型 相 比 , TransE 模型 使 用 的 知识 表示 中 仅 编码 了 知识 图 
谱 三 元 组 的 结构 信息 , 而 BOW 模型 也 仅 编 码 了 实体 描述 中 的 文本 信息 , 所 以 DKRL 模 
型 学 习 到 的 知识 表示 在 类 型 分 类 任务 上 更 加 有 效 。 

(2) DKRL(CNN) 模型 在 实体 类 型 分 类 任务 上 的 表现 优 于 DKRL(CBOW) 模型 。 这 
个 结果 进一步 证 明了 卷 积 神经 网 络 模型 能 够 更 准确 地 对 实体 描述 信息 进行 编码 与 表示 。 
在 实验 过 程 中 ,我 们 发 现 ， 对 于 一 些 描述 较 长 的 测试 样 例 ,使 用 DKRL(CNN) 模型 的 准 
确 率 通常 要 高 于 DKRL(CBOW)。 


表 2.16 FB15K 上 实体 类 型 分 类 的 评测 结果 


评测 指标 MAP 
TransE 87.9 
BOW 86.3 
DKRL(CBOW) 89.3 
DKRL(CNN) 90.1 


3. 零 样本 知识 图 谱 名 全 


在 零 样本 知识 图 谱 补 全 任务 中 ， 我 们 仅 关 注 测试 集中 存在 新 实体 的 三 元 组 的 结果 ， 
即 FB20K 数据 集中 的 de、e 一 d 和 4 一 d 3 类 三 元 组 。 由 于 传统 的 平移 模型 无 法 对 
新 实体 进行 表示 , 所 以 我 们 仪 测试 了 DKRL(CBOW) 模型 和 DKRL(CNN) 模型 的 表示 效 
Ro 在 测试 时 ， 对 于 所 有 新 实体 ， 我们 均 使 用 其 基于 描述 的 表示 作为 知识 表示 ， 而 对 于 
测试 集中 出 现在 训练 集中 的 实体 , 我 们 使 用 其 两 种 表示 分 别 进行 测试 。 综 上 所 述 , 我们 
在 测试 中 一 共 使 用 了 4 种 模型 设 定 ， 其 中 CBOW 表示 测试 中 所 有 实体 均 使 用 基于 描述 
的 表示 ， 而 Partial-CBOW 表示 在 训练 集中 有 的 实体 使 用 基于 结构 的 表示 。 同 理 , CNN 
和 Partial-CNN 也 分 别 表示 在 卷 积 神经 网 络 模型 下 使 用 实体 基于 描述 和 基于 结构 的 表示 
的 模型 。 我们 在 实体 预测 与 关系 预测 任务 上 分 别 进行 了 测试 , 并 且 展 示 的 不 同 三 元 组 类 
的 十 命中 率 (对 实体 ) 和 一 命中 率 (对 关系 ) 的 实验 结果。 
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FB20K 上 零 样本 实体 预测 的 评测 结果 如 表 2.17 Pras, FB20K 上 零 样 本 关系 预测 的 
评测 结果 如 表 2.18 所 示 。 


表 2.17 FB20K 上 零 样本 实体 预测 的 评测 结果 (%) 
三 元 组 类 型 d—e e-d d—d 总 计 
Partial-CBOW 26.5 20.9 67.2 24.6 
CBOW 571 517 66.6 95.3 
Partial-CNN 26.8 20.8 69.5 24.8 
CNN 31.2 26.1 72.5 29.5 

R 2.18 FB20K 上 和 零 样本 关系 预测 的 评测 结果 (%) 
三 元 组 类 型 d—e e—d d-d 总 计 
Partial-CBOW 49.0 42.2 0.0 46.2 
CBOW 52.2 47.9 0.0 50.3 
Partial-CNN 56.6 52.4 4.0 54.8 
CNN 60.4 55.5 7.3 58.2 


从 这 些 结果 中 , 我 们 可 以 得 到 以 下 结论 。 

(1) 在 实体 预测 与 关系 预测 两 个 任务 上 , 基于 CNN 的 模型 在 整体 结果 与 各 个 子 分 
类 上 均 取 得 了 最 佳 结 果 。 对 于 训练 集中 未 出 现 的 新 实体 ， 仅 依靠 其 基于 描述 的 表示 ， 即 
能 在 关系 预测 任务 上 达到 将 近 60% 的 准确 率 。 这 说 明 DKRL 模型 学 得 的 基于 描述 的 表 
示 即 使 在 零 样本 情境 下 也 能 获得 不 错 的 效果 , 体现 了 实体 摘 述 文本 信息 的 重要 性 。 需 要 
指出 的 是 , d 一 d 类 三 元 组 中 的 头 实体 和 尾 实 体 均 为 新 实体 , 是 理论 上 最 为 困难 的 测试 样 
例 类 。 然 而 d-d 类 在 零 样本 实体 预测 任务 中 取得 远 超 其 他 三 元 组 分 类 的 准确 率 。 这 是 
因为 d-d 类 中 有 很 大 部 分 是 自 环 型 的 关系 ， 即 实体 自身 相连 的 关系 ,所 以 实体 预测 反 
而 更 加 容易 。 

(2) CNN 模型 在 两 个 任务 上 的 表现 均 优 于 CBOW 模型 。 具体 地 , CNN 模型 在 实体 
预测 任务 上 比 CBOW 模型 提高 约 4.2%, 在 关系 预测 任务 上 提高 约 7.9%。 这 说 明 卷 积 神 
经 网 络 模型 与 连续 词 袋 模型 相 比 考虑 了 词 序 信息 , 能 够 更 好 地 抓 住 实体 描述 中 关键 的 文 
本 信息 。 

(3) Partial-CBOW 模型 和 Partial-CNN 模型 在 两 个 任务 上 也 得 到 了 不 错 的 效果 。 
这 是 因为 DKRL 模型 的 能 量 函 数 是 由 实体 两 种 表示 的 四 种 组 合 联合 形成 的 。 通 过 
lhs +r- tpl pp +r- ts|| 两 个 混合 项 的 软 限制 ,实体 基于 描述 和 基于 结构 的 表示 
倾 回 被 学 习 到 同一 个 语义 空间 中 , 理想 状态 下 能 够 相互 替换 。 我 们 在 实验 过 程 中 尝试 过 
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使 用 更 为 严格 的 限制 (如 强制 实体 的 两 种 知识 表示 相等 ) 强化 这 种 语义 空间 的 可 替代 性 ， 
但 是 这 会 使 得 模型 在 其 他 任务 上 的 表现 效果 下 降 。 最 后 我 们 在 模型 中 仅 保留 了 混合 项 的 
软 限 制 , 在 确保 知识 表示 质量 的 前 提 下 , 一定 程 度 维护 了 实体 两 种 表示 的 可 符 代 性 。 

A, 零 样 本 实体 类 型 分 类 

在 零 样 本 实体 类 型 分 类 实验 中 , 仿照 上 一 节 实 体 类 型 分 类 的 实验 设计 , 将 前 50 类 型 
覆盖 的 全 部 13 445 个 实体 (这 些 实体 在 FB20K 的 训练 集中 出 现 过 ) 作为 训练 集 , 使 用 实 
体 基于 描述 的 表示 作为 实体 特征 癌 量 ， 采 用 逻辑 斯 带 回 归 训 练 分 类 器 。 将 FB20K 中 的 
4 050 个 被 前 50 类 型 履 盖 的 新 实体 作为 测试 集 , 依旧 使 用 MAP 作为 评测 指标 。 我 们 测 
试 了 DKRL(CBOW) 模型 和 DKRL(CNN) 模型 ， 由 于 平移 模型 无 法 对 新 实体 进行 表示 ， 
我 们 依然 沿用 了 上 一 节 的 BOW 模型 作为 基线 模型 。 

FB20K 上 实体 类 型 分 类 的 评测 结果 如 表 2.19 所 示 。 从 结果 中 可 以 发 现 , DKRL(CNN) 
模型 取得 了 最 佳 结果 , E DKRL(CBOW) 模型 和 BOW 模型 分 别提 高 了 9.9% 和 4.4%. 这 
个 结果 再 次 验证 了 卷 积 神经 网 络 构建 的 基于 描述 的 实体 表示 较 好 地 对 结构 信息 与 文本 信 
恩 进 行 了 编码 。 


表 2.19 FB20K 上 实体 类 型 分 类 的 评测 结果 (%) 
评测 指标 MAP 
BOW 57.5 
DKRL(CBOW) 52.0 
DKRL(CNN) 61.9 


2.6.3 wpa 


在 本 市 中 ,我们 提出 的 DKRL 模型 实现 了 融合 实体 描述 的 知识 表示 学 习 任务 。 我 
们 基于 平移 模型 的 思想 建立 知识 表示 学 习 框 架 , 并 创新 性 地 为 每 个 实体 设置 了 两 种 知识 
表示 一 一 基于 结构 的 表示 与 基于 描述 的 表示 。 我 们 使 用 连续 词 袋 模型 与 卷 积 神经 网 络 模 
型 两 种 实体 摘 述 编码 天 对 实体 描述 进行 建 模 ,， 从 实体 摘 述 中 学 习 实体 基于 描述 的 知识 表 
示 。 模 型 在 知识 图 谱 补 全 和 实体 类 型 分 类 等 任务 上 进行 了 评测 , 均 取 得 了 超过 基线 模型 
的 效果 ,同时 在 等 样本 情境 下 验证 了 模型 对 淅 实体 的 表示 能 力 。 实 验 结果 充分 证 明了 实 
体 摘 述 缠 含 的 丰 官 文本 信息 有 助 于 建立 更 好 的 知识 表示 , 同时 说 明 融 合 实体 搬 述 的 知识 
表示 学 习 模 型 能 够 准确 地 对 实体 描述 和 三 元 组 结构 信息 进行 联合 建 模 。 
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2.7 融合 层次 类 型 信息 的 知识 表示 学 习 


传统 的 知识 表示 方法 (如 TransE 及 其 扩展 模型 ) 仅 使 用 知识 图 谱 之 间 的 关系 信息 作 
为 监督 信号 对 实体 蔡 入 施加 约束 , 但 实际 上 实体 层次 类 型 也 能 够 为 表示 学 习 提供 大 量 重 
要 的 信息 , 加深 模 型 对 实体 与 三 元 组 的 理解 。 由 于 实体 层次 类 型 信息 往往 具有 人 工 定义 
的 结构 化 体系 , 它 可 以 被 看 作 一 种 较为 准确 的 先 验 知识 。 一 些 广 泛 使 用 的 大 规模 知识 图 
i (如 Freebase, DBpedia 等 ) 及 常见 的 百科 类 数据 库 (如 维基 昌 科 等 ) 都 维护 看 一 父 目 己 
的 实体 层次 类 型 信息 。 

因此 , 我 们 尝试 将 实体 层次 类 型 信息 应 用 在 世界 知识 表示 和 学习 中 。 我 们 认为 ， 特定 
关系 下 的 实体 应 该 有 更 需要 突出 的 实体 类 型 , 而 实体 在 突出 不 同类 型 时 应 该 有 不 同 的 知 
识 表示 。 在 图 2.11 所 示 的 Freebase 实体 层次 类 型 信息 样 例 中 , 我 们 发 现在 写作 这 个 关系 
下 , 威廉: 莎士比亚 更 应 突出 书籍 作者 这 个 类 型 , 而 《罗密欧 与 朱丽叶 》 更 应 突出 书籍 作 
品 这 个 类 型 , 这些 相 对 重要 的 实体 类 型 在 图 2.11 中 以 实 线 进行 连接 。 所 以 , 对 于 图 2.11 
中 的 三 元 组 ,应 该 由 威廉 * 莎士比亚 在 书籍 作者 上 的 知识 表示 与 《罗密欧 与 朱丽叶 》 在 
书籍 作品 上 的 知识 表示 进行 交互 。 为 了 利用 实体 的 类 型 信息 指导 知识 表示 学 习 , 使 实体 
在 不 同 的 情境 下 其 有 不 同 的 散 入 表示 , 我 们 提出 了 融合 实体 层次 类 型 信息 的 知识 表示 学 
习 模 型 (TKRL)。 


首 乐 
~ Pa 
(RPE © 莎士比亚， 写作 ， 《罗密欧 与 朱丽叶 》) 


图 2.11 Freebase 实体 层次 类 型 信息 示例 


2.7.1 算法 模型 


如 图 2.12 Pras, 类 似 TransR, TKRL 基于 平移 假设 思想 , 将 实体 以 不 同 的 方式 投影 
到 各 自 的 关系 空间 中 , 但 不 同 的 是 ，TKRL 对 各 个 实体 的 投影 矩阵 可 能 不 同 ， 且 投影 托 
阵 的 构建 受到 实体 层次 类 型 指导 , 这 可 以 从 TKRL 的 能 量 函 数 中 看 出 。 
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E(h, r,t) = ||M,nh+r—M,tt|| (2.28) 


其 中 , Mrr Mre 为 关于 关系 7 AREAK h.t ERREI, EHR AAAS ae 
根据 层次 类 型 信息 给 出 。 具体 地 , 对 于 三 元 组 (h, r to 根据 知识 图 谱 中 关系 特 化 的 实体 类 
型 信息 , h 在 关系 + 下 的 头 实体 位 置 所 应 该 突出 的 类 型 集合 为 Onn = {in Èp h 
则 
1 | | 
Mn = 了 (Ma, + Maa, +--+ Mex, ) (2.29) 


HP, Me 为 层次 类 型 c 的 投影 矩阵 。 层 次 关 型 编码 磺 为 尾 实体 t 构建 的 投影 答 阵 可 以 


同 理 得 到 。 


+ 
M.e- Mm 
{1) 
Cy 


Mo l M 
(a) 递归 层次 编码 器 (b) 加 权 层 次 编码 器 
图 2.12 融合 层次 类 型 信息 的 知识 表示 学 习 模 型 图 


假设 有 层次 类 型 c = {070 >... 40}, 其 在 层次 类 型 结构 中 对 应 了 一 条 由 子 类 
型 构成 的 链 ,， 其 中 从 粒度 最 细 到 粒度 最 粗 的 子 类 型 依次 为 D, cl). cD, 其 对 应 
的 投影 矩阵 分 别 为 Mw: 我 们 尝试 使 用 以 下 两 种 策略 在 TKRL 中 构建 层次 类 型 c 的 投 
影 矩 阵 Moo ， 
—1 
。 递归 层次 编码 : Me = || Mew = Mew Mew Mewn; 
i 
k-i 
。 加权 层次 编码 : Me = > ,BM = iM .a) ++ br- Mea- 其 中 Bi AFR 


k—1 
型 cO 的 权重 , 随 i 增 大 等 比例 减 小 , 即 8; = PLX!, 》 6 =1,0<A<1, 粒度 
越 粗 的 子 类 型 , 其 权重 越 低 。 l 
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子 类 型 的 投影 矩阵 被 作为 模型 的 参数 直接 学 习 得 到 。 


2.7.2 ”实验 分 析 


1. 知识 图 谱 补 全 结果 与 分 析 


在 实验 中 , 我 们 使 用 了 两 种 层次 类 型 编码 器 对 实体 类 型 的 层次 结构 进行 建 模 ， 使 用 
递归 层次 编码 器 的 模型 记录 为 TKRL(RHE)， 使 用 加 权 层 次 编码 器 的 模型 记录 为 
TKRL(WHE)。 我 们 将 训练 中 使 用 了 软 类 型 限制 的 模型 加 上 (+STC) 的 标志 ， 将 测试 中 
使 用 了 类 型 限制 的 模型 加 上 (+TCE) 的 标志 。 

我 们 使 用 融合 实体 层次 类 型 的 知识 表示 学 习 模 型 和 基线 模型 在 训练 集 上 学 到 的 实体 
与 关系 回 量 , 对 测试 集中 的 三 元 组 样 例 进行 知识 图 谱 补 全 。 对 于 测试 集中 的 每 个 样 例 , 我 
们 分 别 隐藏 其 头 实 体 、 关 系 和 尾 实体 ， 用 于 进行 实体 预测 和 关系 预测 。 在 测试 时 ,将 全 
部 实体 (或 关系 ) 作为 候选 集 ， 根 据 各 模型 的 能 量 函 数 为 每 一 个 候选 三 元 组 进行 评分 。 
具体 地 ， 对 于 平移 模型 ， 使 用 Elh, r,t) = |k +r -tl 的 评分 函数 ， 对 于 TransR 模型 ， 
我 们 使 用 E(h,r,t) = |M,h 十 7 一 Mit 的 评分 函数 ;而 对 于 TKRL 模型 ， 我 们 使 用 
E(h,r,t) = |Mr nih +r -Mret 的 评分 函数 。 该 实验 仍然 使 用 平均 排名 和 NN 命中 率 
作为 评测 指标 。 我 们 在 实体 预测 与 关系 预测 两 个 任务 上 进行 了 测试 , FB15K 上 实体 预测 
的 评测 结果 如 表 2.20 所 示 。 FB15K 上 关系 预测 的 评测 结果 如 表 2.21 所 示 。 


表 2.20 FB15K 上 实体 预测 的 评测 结果 


oii 平均 排名 十 命中 率 (%) 
RESCAL 828 683 28.4 44.1 
SE 273 162 28.8 39.8 
SME(linear) 274 154 30.7 40.8 
SME(bilinear) 284 158 31.3 41.3 
LFM 283 164 26.0 33.1 
‘TransE 238 143 46.4 62.1 
TransR 199 77 47.2 67.2 
TKRL(RHE) 184 68 49.2 69.4 
TKRL(WHE) 186 68 49.2 69.6 
TKRL(RHE+STC) 202 89 50.4 73.1 


TKRL(WHE+STC) 202 87 50.3 73.4 
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分 析 实 体 预 测 与 关系 预测 的 评测 结果 , 我 们 可 以 得 到 以 下 结论 。 

(1) 在 实体 预测 与 关系 预测 中 , TKRL(RHE) 模型 与 TKRL(WHE) 模型 在 所 有 评测 
指标 上 超过 了 所 有 的 基线 模型 。 这 说 明 实 体 层 次 类 型 强 含 着 丰富 信息 ,能 够 帮助 模型 学 
到 更 加 准确 的 知识 表示 , 同时 说 明 我 们 设计 的 递归 层次 编码 器 与 加 权 层 次 编码 器 能 够 很 
好 地 对 实体 类 型 的 层次 结构 进行 建 模 , 将 实体 层次 类 型 信息 顺利 地 融入 知识 表示 中 。 


表 2.21 FB15K 上 关系 预测 的 评测 结果 


评测 指标 平均 排名 一 命中 率 (%) 
原始 wie 原始 Wye 
TransE 2.79 2.43 68.4 87.2 
TransR 2.49 2.09 70.2 91.6 
TKRL(RHE) 2.12 1.73 71.1 92.8 
TKRL(WHE) 2.22 1.83 70.8 92.5 
TKRL(RHE+STC) 2.38 1.97 68.7 90.7 
TKRL(WHE+STC) 2.47 2.07 68.3 90.6 


(2) 我 们 将 TKRL 模型 与 同样 基于 平移 假设 的 基线 模型 进行 比较 。 与 TransE 模型 
相 比 ，TKRL 模型 在 所 有 评测 指标 上 的 提升 效果 都 十 分 显著 。 这 从 侧面 证 实 了 实体 在 不 
同类 型 下 应 该 有 不 同 知识 表示 的 假设 , 一 定 程度 上 解决 了 平移 模型 框架 对 于 复杂 关系 建 
模 难 的 问题 。 另 外 ，TKRL 模型 与 TransR 模型 相 比 也 获得 了 不 少 提升 。TransR. 模型 使 
用 了 关系 特 化 的 映射 矩阵 ,使 实体 在 不 同 关 系 下 拥有 不 同 的 表示 ,而 使 用 模型 充分 利用 
了 实体 层次 类 型 信息 及 关系 特 化 的 类 型 信息 , 使 得 各 个 层次 类 型 之 间 能 通过 层次 结构 和 
FEE WI FRB ERK. SES TIM AY SE GR UE HA, PPE PR AY SG Soe FY VA YY RT AE 
阵 融 合 了 更 多 的 信息 ， 从 而 在 实体 表示 上 取得 了 更 好 的 结果 。 

(3) TKRL(WHE+STC) 模型 在 实体 预测 十 命中 率 (过 滤 ) 的 评价 指标 上 取得 了 最 好 
的 实验 结果 , 在 TKRL(WHE) 模型 的 基础 上 又 提升 了 约 3.8%。 而 训练 中 的 软 类 型 限制 
方法 在 递归 层次 编码 器 模型 上 也 能 带 来 相似 的 提升 效果 。 这 是 因为 在 训练 时 ， 软 类 型 限 
制 能 够 增 大 拥有 同类 型 的 实体 被 选中 组 成 负 例 三 元 组 的 概率 。 这 样 的 训练 方式 与 之 前 的 
方法 相 比 ， 能 够 使 得 拥有 相同 类 型 的 实体 问 量 之 间 的 差异 度 更 高 ， 从 而 在 测试 时 得 以 对 
相似 实体 进行 更 精确 的 区 分 。 然 而 ,使 用 软 类 型 限制 的 方法 在 平均 排名 指标 上 会 稍稍 下 
降 。 这 是 因为 类 型 限制 方法 不 可 避免 地 减弱 了 相似 实体 在 癌 量 空间 中 的 聚 类 现象 , 增加 
TS Bahn at BEAN AY BEE. 而 平均 排名 指标 较 容易 受到 极端 错误 结果 的 影响 , 最 终 寻 致 了 排 
名 指标 结果 的 降低 。 
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(4) 比较 基于 违 归 层次 编码 秀和 基于 加 权 层 次 编 但 需 的 模型 ， 我 们 发 现 ,前 痢 在 天 
系 预 出 上 表现 较 好 , 而 后 痢 在 实体 预 出 上 表现 较 好 , 但 是 两 者 相关 较 小 。 这 一 部 分 是 因为 
我 们 在 实验 中 使 用 的 是 基于 Freebase 的 实体 类 型 层次 结构 ， 而 这 些 层 次 结构 大 多 较 浅 ， 
无 法 充分 体现 两 种 层次 编码 需 的 差别 。 但 是 在 运行 速度 上 , 基于 加 权 层 次 编码 器 的 模型 
明显 快 于 基于 化 归 层 次 编 公 上 右 的 模型 。 


2. 测试 中 的 实体 类 型 限制 分 析 


测试 中 的 实体 类 型 限制 也 能 提高 模型 在 知识 图 谱 补 全 任务 上 的 性 能 。 由 于 测试 中 的 
实体 关 型 限制 方法 受 限 于 实体 类 型 的 完整 度 与 准确 度 , 为 了 显示 模型 的 鲁 棒 性 ,我们 仅 
将 此 部 分 结果 单独 作为 辅助 实验 ,并 对 测试 中 实体 类 型 限制 的 效果 进行 详尽 分 析 。 

我 们 在 TKRL(RHE+STC) 模型 和 TKRL(WHE+STC) 模型 上 加 入 测试 中 的 实体 类 
型 限制 ， 并 相应 地 得 到 了 TKRL(RHE+STC+TCE) 模型 和 TKRL(WHE+STC+TCE) 模 
型 。 需要 注意 的 是 , 与 krompa8 等 研究 者 的 测试 设 定 不 同 403 , 我 们 在 测试 中 仍 使 用 实体 
集合 中 的 全 部 实体 作为 候选 集 ( 即 与 传统 知识 表示 学 习 的 测试 设 定 相 同 )。 为 了 更 充分 
地 展示 我 们 模型 的 优势 , 我 们 为 基于 平移 假设 的 基线 模型 也 增加 了 训练 和 训 试 中 的 实体 
类 型 限制 。 测试 中 的 实体 类 型 限制 在 实体 预测 上 的 效果 如 表 2.22 所 示 。 


表 2.22 测试 中 的 实体 类 型 限制 在 实体 预测 上 的 效果 


评测 方法 平均 排名 十 命中 率 (%) 
TransE+TCE 212 116 46.9 63.4 
TransR+TCE 182 60 47.9 68.6 
TransE+STC+TCE 203 104 49.8 69.9 
TransR+STC+TCE 185 63 A8.5 71.7 
TKRL (RHE+STC+TCE) 169 56 51.4 75.4 
TKRL (WHE+STC+TCE) 170 55 51.3 75.6 


将 表 2.22 的 结果 与 表 2.20 中 对 应 模型 的 结果 进行 比较 , 我 们 可 以 得 到 以 下 结论 。 

(1) 包括 TKRL 模型 、 平 移 模 型 和 TransR 模型 在 内 的 所 有 模型 , 在 加 入 测试 中 的 实 
体 类 型 限制 时 , 实体 预测 的 效 采 都 有 提升 。 在 十 命中 率 上 , TKRL(WHE+STC+TCE) #& 
型 的 过 滤 评 测 指标 上 达到 了 75.6%, 比 不 使 用 测试 时 类 型 限制 的 模型 进一步 提升 了 2.2%。 
这 是 因为 测试 中 的 实体 类 型 限制 去 除了 违反 类 型 限制 的 候选 实体 , 在 实体 类 型 较 完整 与 
准确 时 ， 能 够 缩小 候选 范围 并 较 少 地 引入 错误 ， 从 而 提升 实体 预测 的 效 案 。 
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(2) 对 于 基于 平移 假设 的 基线 模型 , 在 训练 中 使 用 软 类 型 限制 能 够 进一步 提升 测试 
中 类 型 限制 的 效果 。 以 TransE 模型 为 例 , 使 用 测试 中 的 类 型 限制 能 够 使 得 TransE 模型 在 
十 命中 率 (过 滤 ) 评测 指标 上 的 结果 提 融 1.3%。 而 再 加 上 训练 时 的 软 类 型 限制 ,TransE+ 
STC+TCE 模型 能 够 进一步 提高 6.5%。 这 是 因为 训练 中 的 软 类 型 限制 能 够 使 得 相似 实体 
fey AY Zee A ee, 在 联合 使 用 测试 中 的 实体 类 型 限制 时 能 够 获得 更 好 的 效果 。 

(3) 对 比 所 有 使 用 了 训练 /测试 中 实体 类 型 限制 方法 的 模型 ，TKRL 模型 仍然 能 够 
取得 最 佳 的 迪 采 。 这 充分 说 明了 根据 实体 层次 类 型 建立 类 型 符 化 映射 窍 阵 的 重要 性 与 使 
用 模型 的 鲁 棒 性 。 


3. 长 尾 分 布 数据 上 的 结果 与 分 析 


由 于 真实 世界 中 的 知识 图 谱 往 往 具 有 长 尾 分 布 ， 所 以 我 们 构造 了 FB15K+ 数据 集 ， 
用 以 测试 模型 在 长 尾 分 布下 实体 预测 与 天 系 预 测 的 效果 , 与 FB15K 相 比 , FB15K+ 中 增 
加 了 510 SRA, 而 这 些 关 系 往 往 都 具有 较 低 频次 。 我 们 根据 各 关系 在 FBISK+ 的 三 元 
组 中 出 现 的 频次 对 测试 集 划 分 成 组 , 展示 了 模型 在 实体 预测 与 天 系 预 测 中 各 组 测试 集 的 
N 命中 率 (过 滤 ) 评测 指标 的 结果 。 为 了 便于 展示 , 我 们 仪 对 TransE 模型 TransR 模型 
与 TKRL(WHE) 模型 的 结果 进行 比较 。 其 结果 如 表 2.23 所 示 。 


表 2.23 长 尾 分 布 数 据 集 FB15K 十 上 的 实体 预测 与 关系 预测 结果 


关系 频次 实体 预测 十 命中 率 (%) 关系 预测 一 命中 率 (%) 
TransE TransR TKRL(WHE) TransE TransR TKRL(WHE) 
< 10 28.0 32.4 38.1 (十 5.7) 13.2 17.0 21.5 (十 4.5) 
<100 49.9 54.5 57.9 (十 3.4) 45.7 50.5 54.3 (+3.8) 
<1 000 66.1 69.1 71.6 (+2.5) 70.9 75.4 77.8 (+2.4) 
全 部 61.9 67.2 69.2 (十 2.0) 80.4 88.8 89.7 (十 0.9) 


从 表 2.23 我 们 可 以 得 到 以 下 结论 。 

(1) TKRL(WHE) 模型 在 所 有 频次 测试 组 中 的 实体 预测 和 关系 预测 结果 均 好 于 
TransE 模型 和 TransR 模型 ， 这 充分 证 明了 融合 实体 类 型 信息 的 知识 表示 学 习 模 型 在 真 
实 的 长 尾 分 布 数据 上 相对 于 基线 模型 也 具有 显著 优势 , 也 进一步 说 明了 模型 的 有 效 性 与 
鲁 棒 性 。 

(2) 通过 观察 发 现 , TKRL(WHE) 模型 在 低频 关系 下 实体 预测 和 关系 预测 的 结果 相 
比 高 频 提升 更 大 。 FER 2.23 中 , TKRL(WHE) 模型 的 结果 后 面 标注 了 其 相对 TransR 模型 
的 提升 结果 。 在 关系 频次 小 于 等 于 10 的 分 组 下 , TKRL(WHE) 模型 在 实体 预测 和 关系 预 
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测 上 分 别 比 TransR 模型 提高 了 5.7% 和 4.5%; 而 在 全 部 测试 集 上 的 结果 , TKRL(WHE) 
模型 在 实体 预测 和 关系 预测 上 仅 比 TransR 模型 提高 了 2.0% 和 0.9%。 这 是 因为 尽管 
TKRL 模型 与 TransR. 模型 都 使 用 了 映射 矩阵 的 方法 构建 实体 在 不 同情 境 下 的 表示 ,但 
是 TKRL 的 构建 基于 实体 层次 类 型 ， 而 TransR 的 构建 基于 关系 。 在 对 拥有 低频 关系 的 
实体 进行 建 模 时 ，TransR. 模型 较 容易 受到 数据 黎 玖 及 训练 不 充分 的 影响 ; 而 TKRL 模型 
能 够 充分 利用 实体 层次 类 型 之 间 的 联系 , 对 低频 关系 下 的 实体 也 能 较 好 地 建立 表示 。 


4. 三 元 组 分 类 结果 与 分 析 


使 用 FB15K 的 测试 集 进行 三 元 组 分 类 的 评测 ,然而 知识 图 谱 中 并 没有 显 式 的 负 例 
三 元 组 。 我 们 参考 Socher 等 研究 者 在 三 元 组 分 类 任务 上 的 设 定 U8), 基于 测试 集 自动 构 
aap). Asha, 对 于 测试 集中 每 一 个 正 例 三 元 组 (hr t) 随机 霄 换 探 其 中 的 头 实体 或 
者 尾 实体 ， 组 成 负 例 三 元 组 (hr t) 或 者 (h,7,t)。 为 了 使 三 元 组 分 类 任务 更 具 挑 战 性 ， 
更 大 程度 上 展示 模型 的 性 能 差异 , 我 们 使 用 了 实体 类 型 限制 的 方法 , 强制 要 求 蔡 换 的 负 
例 实体 和 被 替换 的 原 实体 拥有 相同 的 类 型 。 例如 , (莎士比亚 ， SH, 哈姆雷特 ) 的 负 例 
中 头 实体 应 该 也 是 一 位 作家 , 因为 拥有 错误 类 型 的 负 例 三 元 组 很 容易 会 被 知识 表示 学 习 
模型 检测 出 来 , 从 而 失去 评测 意义 。 在 实验 中 , 对 于 验证 集 和 测试 集中 的 每 一 个 三 元 组 ， 
我 们 以 均等 概率 随机 替换 头 实体 或 尾 实体 , 产生 对 应 的 负 例 , 这 保证 了 三 元 组 分 类 任务 
中 正 负 例 的 数量 一 致 。 

我 们 使 用 TransE 模型 和 TransR 模型 作为 基线 模型 ， 与 TKRL 模型 进行 比较 。 在 
评测 时 , 我 们 仍然 使 用 在 知识 图 谱 补 全 任务 中 各 模型 对 应 的 三 元 组 评分 函数 Elh, r, t) 进 
行 判 定 。 有 具体 地 ,我 们 会 为 每 一 种 关系 设 定 一 个 阅 值 6.。 当 E(h,r,t) > 6, 时 , 三 元 组 被 
判断 为 负 例 ; 当 EE(h,7,t) <6, 时 ,三 元 组 被 判断 为 正 例 。 我 们 在 验证 集 上 进行 优化 , 得 
到 各 关系 所 对 应 的 阔 值 6, 用 于 对 测试 集 进行 评测 。 FB15K 上 三 元 组 分 类 的 评测 结果 如 
K 2.24 所 示 。 

从 结果 中 , 我 们 可 以 发 现 以 下 结论 。 

(1) TKRL 模型 的 准确 率 超过 了 所 有 的 基线 模型 ， 其 中 TKRL(WHE+STC) 模型 得 
到 了 最 好 的 结果 。 这 从 另 一 个 角度 说 明了 融合 实体 类 型 的 知识 表示 学 习 模型 能 够 学 到 更 
准确 的 知识 表示 ， 从 而 帮助 三 元 组 分 类 等 任务 。 

(2) 加 上 训练 中 的 软 类 型 限制 方法 后 , 递归 层次 编码 器 模型 和 加 权 层 次 编码 器 模型 
都 能 获得 进一步 的 提升 。 这 说 明了 软 类 型 限制 能 够 学 习 到 相似 实体 之 间 的 差异 ， 从 而 在 
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三 元 组 分 类 任务 上 获得 更 加 精确 的 结果 。 


表 2.24 FB15K 上 三 元 组 分 类 的 评测 结果 


模型 准确 率 (%) 
Trans 85.7 
TransR. 86.4 
TKRL(RHE) 86.9 
TKRL(WHE) 87.1 
TKRL(RHE+STC) 88.4 
TKRL(WHE+STC) 88.5 


pA Ges an 


EAT, 我 们 提出 了 TKRL 模型 , 融合 实体 层次 头 型 信息 辅助 知识 表示 学 习 。 我 们 
在 平移 模型 的 思想 上 做 出 改进 ， 提 出 实体 在 不 同类 型 下 应 该 具有 不 同 知识 表示 的 假设 ， 
构建 类 型 特 化 的 映射 矩阵 , 并 使 用 递归 层次 编码 融和 加 权 层 次 编码 天 对 类 型 的 层次 结构 
进行 建 模 。 我 们 还 提出 了 软 类 型 限制 的 策略 , 并 在 训练 与 测试 中 分 别 使 用 了 类 型 限制 的 
方法 ,进一步 提高 知识 表示 的 精确 度 。 模 型 在 知识 图 谱 补 全 和 三 元 组 分 类 等 任务 上 进行 
了 评测 , 均 取 得 了 超过 基线 模型 的 效果 , 同时 在 具有 长 尾 分 布 的 数据 集 上 验证 了 模型 对 
低频 关系 的 表示 效果 。 实 验 结果 充分 证 明了 实体 层次 类 型 强 售 了 丰富 的 信息 , 能 够 帮助 
建立 更 精确 的 知识 表示 , 同时 说 明 提 出 的 融合 实体 层 人 次 类 型 信息 的 知识 表示 和 学习 模型 能 
够 有 效 地 联合 编码 并 学 习 到 实体 类 型 的 知识 。 


2.8 ”融合 实体 图 像 信 息 的 知识 表示 学 习 


图 像 信息 是 人 类 能 够 日 然 接 收 并 认 知 的 信息 之 一 , 以 图 像 形式 储存 的 信息 往往 更 加 
灵活 和 丰富。 研究 结果 表明 ， 人 类 每 日 从 外 界 进行 的 信息 获取 与 交互 行为 中 ,很 大 一 部 
分 是 通过 视觉 来 完成 的 。 通过 图 像 信息 的 帮助 , 我 们 往往 得 以 从 多 和 角度 全 方位 地 理解 实 
体 在 文字 或 结构 化 信息 之 外 的 知识 细节 。 主 体 部 分 描述 指定 实体 的 实体 图 像 能 够 提供 对 
应 实体 日 员外 形 、 行 为 和 其 他 相关 实体 的 视 沉 信息。 实体 图 像 信息 来 源 十 分 丰富 , 一 
世界 知识 图 谱 (如 维基 百科 等 ) 往往 会 有 对 应 实体 的 图 像 信息 ,而 专门 的 图 像 数 据 集 更 
是 储存 着 海量 的 实体 相关 图 像 信 息 。 
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受 此 启发 我们 提出 了 融合 实体 图 像 信息 的 知识 表示 学 习 模 型 (IKRL)。 如 图 2.13 
Bras, 对 于 一 个 三 元 组 , IKRL 模型 以 其 头 实 体 和 尾 实体 的 所 有 实体 图 像 作 为 输入 , 经 过 
实体 图 像 编 码 器 得 到 各 个 图 像 在 知识 空间 的 表示 。 由 于 一 个 实体 往往 有 多 张 质 量 良 劳 不 
齐 的 图 像 ，IKRL 使 用 注意 力 机 制 目 动 评 佑 图 像 的 质量 ， 并 根据 各 图 像 的 质量 对 它们 的 
岁入 表示 进行 整合 得 到 实体 基于 图 像 的 表示 。 


结合 图 像 信息 


联合 训练 


图 2.13 ”融合 实体 图 像 信 息 的 知识 表示 学 习 模 型 流程 图 


2.8.1 算法 模型 


类 似 DKRL, IKRL 也 需要 融合 两 种 不 同 的 信息 以 实现 图 像 空 间 和 知识 空间 的 对 齐 
和 联合 训练 , 故 IKRL 也 采用 了 类 似 式 2.24 的 能 量 函 数 。 


E(h, ro =a||hs +r — ts| 十 a2| Ps 十 太一 ty\|+ 


(2.30) 
a3||hy 十 TT 一 ts || 十 a4|| hi 十 和 一 ti || 


其 中 , 下 标 S、I 用 于 区 分 基于 知识 图 谱 和 基于 实体 图 像 的 实体 表示 。 同 时 , IKRL 采用 
了 与 DKRL 相同 的 带 间 隔 的 目标 函数 ( 见 式 2.25)。 

对 于 实体 er, 为 了 从 其 实体 图 像 集合 I = {ime img”... ime} 得 到 基于 图 像 
的 实体 表示 , IKRL 首先 使 用 图 2.14 所 示 的 图 像 编码 器 对 每 个 图 像 img 分 别 进行 编码 
得 到 p\”, 然后 应 用 基于 注意 力 机 制 的 多 实例 学 习 MIL) 方法 , 将 多 个 图 像 得 到 的 编码 


图 像 数 据 图 像 空间 知识 空间 


f(img;) Pi 
图 2.14 实体 图 像 编 码 器 示例 图 
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pe pP,- pO 整合 为 最 终 的 嵌入 表示 e™, B 


n nE) (kK) (k) 
tt(p., "P; 
ef") 3 a Ups ,es ) Pi 


lS att(p, ) 
j=1 
其 中 
(k) _(k) 
att(p® ef) = -PP 的) (2.32) 
| k k sy 
>》 “exp (py - es”) 
j=l 


其 中 , e 表示 e( 基于 知识 图 谱 的 表示 。eg) 与 eP 均 将 被 用 于 式 (2.30) 中 进行 实体 
表示 的 训练 。 


2.8.2 ”实验 分 析 


1. 知识 图 谱 补 全 结果 与 分 析 


为 了 对 IKRL 模型 的 效果 进行 实验 , 我 们 自己 构建 了 一 个 包含 丰富 实体 图 像 信息 的 
知识 图 谱 数据 集 。 为 了 保证 构建 数据 集 的 三 元 组 和 图 像 质量 ， 我 们 选择 从 ImageNet 中 
获取 实体 图 像 ， 并 从 WN18 数据 集中 选择 头 实体 和 尾 实体 均 在 ImageNet 中 有 实体 图 像 
的 三 元 组 , 构建 WN9-IMG 跨 模 态 知识 图 谱 数 据 集 。 

由 于 IKRL 模型 为 每 个 实体 构建 了 基于 结构 和 基于 图 像 的 两 种 实体 表示 向 量 , 在 测 
TAIN, 我 们 根据 使 用 实体 表示 的 不 同 报告 了 3 种 不 同 设 定 下 的 结果 : IKRL(SBR) 模型 代 
表 测 试 时 仅 使 用 基于 结构 的 表示 进行 预测 ; IKRL(IBR) 模型 代表 测试 时 仅 使 用 基于 图 像 
的 表示 进行 预测 ; 与 前 两 者 不 同 , IKRL(UNION) 模型 代表 测试 时 使 用 简单 的 加 权 策 略 ， 
联合 使 用 两 种 实体 表示 进行 预测 。WN9-IMG 上 实体 预测 的 评测 结果 如 表 2.25 所 示 。 


表 2.25 WHN9-IMG 上 实体 预测 的 评测 结果 


评测 指标 平均 排名 十 命中 率 (%) 

TransE 143 137 79.9 91.2 

TransR 147 140 80.1 91.7 
IKRL(SBR) 41 34 81.1 92.9 
IKRL(IBR) 29 22 80.2 93.3 


IKRL(UNION) 28 21 80.9 93.8 
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从 结果 中 , 我 们 可 以 得 到 以 下 结论 。 

(1) 所 有 的 IKRL 模型 在 全 部 评测 指标 上 的 实体 预测 结果 都 超过 了 基线 模型 ， 其 中 
IKRL(UNION) 模型 得 到 了 最 好 的 结果 。 这 说 明 实 体 图 像 中 的 丰富 视觉 信息 能 够 帮助 我 
们 更 深入 地 理解 实体 ， 同 时 说 明 我 们 的 模型 能 够 成 功 地 将 这 些 信 息 编码 进 实体 表示 中 ， 
提升 实体 预测 的 性 能 。 

(2) IKRL(SBR) 模型 和 IKRL(IBR) 模型 在 所 有 评测 指标 上 都 超过 了 基线 模型 。 
IKRL(IBR) 模型 基于 实体 图 像 信 息 直 接 构 建 实 体 的 表示 回 量 , 融合 了 实体 视觉 信息 与 实 
体 在 知识 图 谱 中 的 结构 信息 , 因此 表示 效果 与 基线 模型 相 比 得 到 了 提升 。 而 IKRL(SBR) 
模型 虽然 使 用 的 是 基于 结构 的 实体 表示 , 但 是 这 些 表 示 癌 量 通 过 能 量 函 数 中 两 种 表示 的 
混合 项 训练 , 也 间接 学 习 到 了 一 部 分 图 像 信息 ， 从 而 使 其 表示 能 力 得 到 提高 。 

(3) 所 有 的 IKRL 模型 在 平均 排名 评测 指标 上 都 得 到 了 显著 的 提升 。 这 是 因为 平均 
排名 评测 指标 关注 实体 表示 在 向 量 空间 中 的 整体 效果 , 对 错误 样 例 比 十 命中 率 指标 更 加 
敏感 。 传 统 基于 平移 假设 的 模型 仅 考虑 了 知识 图 谱 的 结构 信息 ， 当 所 预测 的 信息 丢失 时 
很 容易 错 得 比较 离谱 。 而 我 们 使 用 的 模型 通过 融合 实体 图 像 信 息 ， 能 够 间接 地 发 现 知识 
图 谱 中 没有 直接 提出 的 实体 潜在 关系 ,从 而 使 得 知识 表示 的 整体 效果 得 到 提高 。 

(4) 实验 中 IKRL 模型 是 基于 原始 的 平移 模型 框架 进行 训练 的 , 但 其 在 实体 预测 上 
的 效果 仍 优 于 TransR 模型, 这 反映 了 IKRL 模型 的 有 效 性 和 和 鲁 棱 性 。 融合 实体 图 像 也 能 
较 容易 地 运用 于 基于 平移 模型 的 改进 模型 上 。 


2， 注 意 力 机 制 的 影响 与 分 析 


为 了 更 深入 地 展示 注意 力 机 制 在 模型 中 起 到 的 作用 , 我 们 还 具体 分 析 了 在 构建 基于 
图 像 的 表示 时 3 种 不 同 策略 的 影响 。 我 们 使 用 IKRL(ATT) 表示 使 用 注意 力 机 制 加 权 图 
像 表 示 的 策略 ( 即 表 2.25 中 给 出 的 模型 ), 使 用 IKRL(MAX) 表示 仅 考 虑 注意 力 最 大 的 
图 像 表示 的 策略 ， 使 用 IKRL(AVG) 表示 使 用 所 有 图 像 表 示 均 值 的 策略 。 为 了 更 全 面 地 
进行 比较 , 我 们 展示 了 在 以 上 3 种 策略 下 基于 结构 的 表示 和 基于 图 像 的 表示 在 实体 预测 
任务 上 的 评测 结果 。WN9-IMG 上 各 组 合 策略 的 实体 预测 结果 如 表 2.26 所 示 。 

从 结果 中 , 我 们 可 以 得 到 以 下 结论 。 

(1) IKRL(ATT) 模型 的 两 种 表示 在 所 有 评测 指标 上 都 得 到 了 最 好 的 结果 。 这 是 由 于 
注意 力 机 制 能 够 智能 地 从 多 个 实体 图 像 中 选择 高 质量 的 图 像样 例 , 构建 实体 基于 图 像 的 
表示 , 在 充分 利用 实体 图 像 多 样 性 的 同时 ， 保 证 实体 表示 尽 可 能 少 地 受到 低 质 量 图 像 的 
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噪声 影响 。 
表 2.26 WN9-IMG 上 各 组 合 策略 的 实体 预测 结果 
表示 类 型 基于 图 像 的 表示 基于 结构 的 表示 
评测 方法 平均 排名 十 命中 率 (%) 平均 排名 十 命中 率 (%) 
IKRL(MAX) 59 52 79.8 92.1 62 55 81.0 92.3 
IKRL(AVG) 29 22 79.3 92.9 43 36 80.7 92.8 
IKRL(ATT) 29 22 80.2 93.3 41 34 81.1 92.9 


(2) 尽管 使 用 了 简单 的 IKRL(MAX) 策略 和 IKRL(AVG) 策略 ， 融 合 实体 图 像 信息 
的 知识 表示 模型 仍然 能 超过 表 2.25 中 基线 模型 的 结果 。 这 进一步 说 明 实 体 图 像 信 息 对 知 
识 表示 构建 的 重要 性 及 IKRL 模型 编码 图 像 信 息 的 鲁 棒 性 。 

(3) IKRL(AVG) 策略 比 IKRL(MAX) 策略 的 整体 结果 更 好 , 在 平均 排名 指标 上 尤其 
如 此 。 这 是 因为 IKRL(AVG) 策略 综合 考虑 了 所 有 的 实体 图 像 信 息 ， 虽 然 不 可 避免 地 会 
引入 一 些 噪 声 , 但 是 仍 比 仅 考 虑 质量 最 高 图 像 的 IKRL(MAX) 策略 具有 优势 。 

(4) 通过 比较 可 以 发 现 , 和 IKRL(AVG) 策略 相 比 , IKRL(ATT) 策略 的 优势 似乎 并 不 
特别 明显 。 这 是 由 于 我 们 构建 评测 数据 集 时 , 为 了 保证 实体 图 像 的 质量 , 选择 从 ImageNet 
中 直接 抽取 实体 图 像 的 缘故 。WN9-IMG 数据 集中 的 图 像 质量 整体 较 高 ,， 一定 程 度 上 导 
致 了 基于 注意 力 机 制 的 策略 优势 不 明显 , 因为 几乎 所 有 图 像 都 能 提供 实体 相关 的 正确 信 
A, 彼此 应 得 的 注意 力 相 当 。 为 了 充分 展示 注意 力 机 制 对 模型 的 正面 影响 ,我们 在 结果 
样 例 分 析 中 进一步 探索 , 给 出 了 注意 力 机 制 从 多 个 实体 图 像 中 成 功 分 辨 出 高 信息 量 图 像 
的 实例 。 

3. 三 元 组 分 类 结果 与 分 析 

我 们 在 WN9-IMG 数据 集 上 进行 三 元 组 分 类 的 评测 。 在 测试 时 , 我 们 依 徘 验证 集 上 
的 分 类 效果 为 每 一 种 关系 设置 一 个 关系 特 化 的 贱 值 mn,。 以 IKRL 模型 为 例 ， 当 其 三 元 组 
的 评分 函数 |R +r -tl >m 时 ,三 元 组 被 判断 为 负 例 ; 而 当 |h+r—-t|<n NHN, 三 元 
组 被 判断 为 正 例 。 其 他 模型 也 按照 上 自己 的 评分 函数 进行 分 类 判断 。 为 了 使 比较 充分 , 我 
们 测试 了 IKRL(MAX)、IKRL(AVG)、IKRL(ATT)3 种 策略 下 的 实验 结果 。WN9-IMG 上 
三 元 组 分 类 的 评测 结果 如 表 2.27 所 示 。 
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表 2.27 WN9-IMG 上 三 元 组 分 类 的 评测 结果 


模型 准确 率 (%) 
TransE 95.0 
TransR. 95.3 
IKRL (MAX) 96.3 
IKRL (AVG) 96.6 
IKRL (ATT) 96.9 


从 结果 中 , 我 们 可 以 发 现 : 

(1) 所 有 IKRL 模型 都 获得 了 比 基 线 模型 更 好 的 效果 , 这 从 男 一 个 角度 重新 证 实 J 
实体 图 像 信息 的 重要 性 , 也 说 明 IKRL 模型 能 够 联合 编码 实体 结构 信息 与 视觉 信息 , A 
BC Te HY PE 

(2) Æ 3 种 组 合 策略 中 , IKRL(ATT) 策略 获得 了 最 好 的 结果 。 这 说 明 注 意 力 模型 能 
够 目 动 选取 信息 量 更 融 的 实体 图 像 组 成 基于 图 像 的 实体 表示 , 在 保证 图 像 质量 的 前 提 下 
充分 利用 实体 图 像 的 多 样 性 ， 获 得 实体 相关 更 完整 的 视觉 信息 。 而 IKRL(AVG) RIRH 
获得 了 比 IKRL(MAX) 策略 更 好 的 效果 , 说 明 综 合 考 虑 多 个 实体 图 像 带 来 了 模型 效果 的 
提升 

4. 图 像 -知识 空间 的 语义 平移 规则 

word2vec 模型 得 到 的 是 有 趣 的 语义 平移 规则 ， 受 此 工作 局 发 ,我们 等 试 探索 IKRL 
模型 学 到 的 跨 模 态 知识 表示 是 否 也 具有 这 种 语义 平移 现象 。 具体 地 , 我 们 使 用 实体 基于 
图 像 的 表示 进行 了 语义 平移 规则 的 探索 。 实 验 结果 表明 , ERROS N ARAMA AP, 
语义 平移 规则 是 普 遇 存在 的 。 图 像 -知识 空间 的 语义 平移 规则 示例 如 图 2.15 PAS 


猫 科 动 物 老虎 tay fi] E 


图 2.15 图 像 -知识 空间 的 语义 平移 规则 示例 
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以 图 2.15 所 示 的 示例 为 例 , 设 IJBR(z) 表示 实体 r 的 基于 图 像 的 表示 , 我 们 首先 计 
 IBR(4£ 7-)-IBR(44 )+IBR( A 4t), 得 到 一 个 同 量 , 然后 以 整个 实体 集 为 候选 , 根据 实 
体 与 此 疝 量 的 距离 进行 排序 , 发 现 最 相近 的 实体 向量 是 IBR( 钢 琴 )。 与 之 前 的 工作 不 同 ， 
由 于 我 们 是 在 跨 模 态 图 像 -知识 空间 进行 的 测试 , 实体 之 间 的 向 量 差 IJBR( 柜 子 )-IBR( 扫 
Æ) IBR(4A #)-IBR(# 44) 与 真实 的 关系 属于 成 功 对 应 ,将 语义 平移 规则 中 隐藏 的 联系 
显 式 地 表现 出 来 , 展示 了 IKRL 模型 的 有 效 性 。 


2.8.3 Wp 


在 本 六 中 ,我们 提出 了 融合 实体 图 像 信息 的 知识 表示 和 学习 模 型 一 一 IKRL 模型 ， 
构建 知识 的 器 模 态 表示 。 特别 地 ， wii 
表示 , 在 平移 模型 的 学 习 框 殿下 进行 联合 训练 。 我 们 使 用 基于 深度 神经 网 络 的 图 像 表 示 
模块 抽取 实体 图 像 的 特征 , 然后 将 图 像 特征 映射 到 知识 空间 中 ,并 针对 实体 图 像 的 多 样 
例 学 习 提出 基于 注意 力 的 模型 ,最 终 构 建 实体 基于 图 像 的 表示 。 模 型 在 知识 图 谐 补 全 和 
三 元 组 分 类 等 任务 上 进行 了 测试 , 实验 结果 验证 了 实体 图 像 缠 含 的 丰富 视觉 信息 的 重要 
性 , 也 说 明 我 们 的 模型 能 够 较 好 地 从 多 实例 实体 图 像 中 智能 准确 地 抽取 实体 的 相关 知识 
以 构建 实体 表示 。 我 们 还 结合 实例 分 析 , 探索 了 图 像 -知识 空间 的 语义 平移 现象 和 注意 力 
机 制 对 模型 的 影 啊 。 


2.9 BREA 


本 章 介 绍 了 针对 世界 知识 图 谐 的 表示 学 习 方法 。 由 于 世界 知识 图 谐 具 有 信息 复杂 、 
规模 庞大 、 完 整 度 低 的 特点 , 我们 在 平移 模型 的 基础 上 ， 从 世界 知识 图 详 结 构建 模 和 多 
源 信息 融合 两 个 不 同 的 角度 为 世界 知识 图 谱 的 表示 学 习 提 供 了 解决 的 思路 。 

在 世界 知识 图 谱 结 构建 模 方 面 : 

(1) TransR 模型 和 CTransR 模型 通过 为 每 种 关系 定义 单独 的 语义 空间 、 人 允许 同一 
个 实体 在 不 同 关系 场景 下 具有 不 同 的 语义 , 增强 了 对 复杂 关系 的 建 模 能 力 。 

(2) PTransE 模型 通过 引入 知识 图 谐 中 实体 间 的 多 步 关系 路 径 ， 更 加 充分 地 利用 了 
知识 图 谱 的 结构 信息 。 
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(3) KR-EAR 模型 根据 关系 自身 的 特点 将 一 般 意 义 下 的 关系 分 为 了 属性 和 关系 两 
类 ,并 通过 为 属性 这 类 关系 设计 特殊 的 模型 ， 改善 了 知识 表示 学 习 对 一 对 多 和 多 对 一 关 
系 处 理 效 果 人 大 佳 的 问题 。 

在 多 源 信息 融合 方面 : 

(1) DKRL 和 IKRL 分 别 对 实体 的 描述 文本 和 图 像 进 行 了 编码 , 通过 在 能 量 函 数 中 
进行 知识 空间 和 文本 /图 像 衬 间 的 对 齐 将 描述 和 图 像 信息 引入 知识 表示 学 习 。 

(2) TKRL 使 用 知识 图 谱 中 实体 的 层次 类 型 信息 来 构建 实体 的 投影 矩阵 并 根据 特定 
关系 突出 不 同 的 实体 类 型 , 将 实体 类 型 信息 引入 知识 表示 学 习 。 

通过 一 系列 实验 , 我们 验证 了 对 关系 进行 深入 建 模 的 有 效 性 ,也 展示 了 不 同类 型 的 
外 部 信息 在 知识 表示 学 习 中 发 挥 的 突出 作用 , 这 些 都 将 有 助 于 更 好 地 表示 知识 图 谱 中 的 
世界 知识 。 


第 福音 
世界 知识 的 自动 获取 


近 些 年 来 , 包括 Freebasel5 、DBpediad 、YAGOl8s 在 内 的 诸多 大 型 知识 图 谱 逐 渐 形 
成 体系 , 并 被 广泛 地 应 用 于 问答 系统 、 文 本 检索 等 诸多 自然 语言 处 理 任务 上 , 取得 了 显 
著 的 效果 。 然 而 ,尽管 现 有 的 大 型 知识 图 谱 已 经 富 舍 海量 的 世界 知识 , 但 与 现实 世界 中 
近 平 无 穷 无 尽 的 知识 量 相 比 , 其 距离 完善 仍 有 很 大 距离 。 为 了 尺 可 能 地 为 知识 图 谱 获 取 
更 加 丰富 的 世界 知识 ， 研 究 者 们 投入 了 诸多 努力 来 探寻 可 以 目 动 获取 世界 知识 的 方法 ， 
进而 完善 世界 知识 图 谱 的 构建 。 在 世界 知识 的 自动 获取 上 ,关系 抽取 是 其 中 的 核心 ,也 
是 完成 这 一 任务 的 必由之路 。 本 章 以 关系 抽取 为 切入 点 ， 从 关系 抽取 的 视角 出 发 来 介绍 
世界 知识 的 目 动 获取 。 

关系 抽取 上 则 在 从 未 经 标注 的 自由 文本 中 抽取 实体 间 的 关系 , 进而 将 实体 与 关系 结构 
化 为 世界 知识 ， 并 相应 地 扩充 到 知识 图 谱 之 中 。 传统 的 关系 抽取 方法 主要 立足 于 构建 有 
监督 的 抽取 系统 ,其 训练 与 部 署 极 度 依赖 大 规模 的 人 工 标记 数据 , 这 带 来 了 巨大 的 时 间 
与 人 力 耗费 。 因 此 ，Mintz 等 人 434 通过 对 齐 知识 图 谱 中 已 有 的 世界 知识 和 未 经 标注 的 
自由 文本 来 自动 生成 训练 数据 , 构建 出 基于 远程 监督 的 关系 抽取 系统 ， 从 而 让 利用 大 规 
模 数 据 训练 出 可 用 的 抽取 模型 成 为 可 能 。 在 当下 , 远程 监督 已 经 成 为 关系 抽取 研究 中 的 
重要 一 环 , 其 很 好 地 弥补 了 传统 有 监督 模型 存在 的 问题 , 但 该 方法 本 身 也 面临 着 一 些 核 
心 难 题 蜡 待 解决 。 

(1) 数据 噪声 问题 。 远程 监督 通常 采用 假设 极 强 的 启发 式 规 则 来 自动 标注 数据 , 其 
获取 的 训练 数据 往往 存在 大 量 噪 声 。 

(2) 数据 长 尾 问 题 。 依靠 外 接 的 知识 图 谱 来 进行 远程 监督 , 其 自动 获取 的 数据 往往 
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呈现 知人 律 分布 , 大 量 的 长 尾 实 体 对 及 其 关系 难以 通过 远程 监督 来 获取 数据 。 

无 论 是 噪声 数据 还 是 长 尾数 据 , 均 为 训练 抽取 系统 市 来 了 困难 , 也 限制 了 远程 监督 
场景 下 关系 抽取 系统 的 性 能 。 针 对 这 些 挑战 性 问题 ， 我 们 对 基于 远程 监督 的 关系 抽取 进 
行 了 研究 与 探 寺 , 并 从 以 下 两 个 方面 进行 深入 展开 和 探讨 。 

(1) 如 何 利用 远程 监督 获取 大 规模 训练 数据 , 同时 规避 其 中 噪声 数据 市 来 的 负面 影 
Me) , 进而 得 到 更 鲁 棱 的 抽取 系统 。 

(2) 如 何 考 虑 多 源 的 外 部 信息 ， 引 入 更 多 的 优质 数据 ,缓解 长 尾数 据 市 来 的 影 啊 ， 
进而 得 到 和 窗 畜 面 更 大 的 抽取 系统 。 

上 述 研 究 方 同 均 有 利于 获取 性 能 优 寞 的 关系 抽取 系统 以 支持 世界 知识 的 目 动 获取 。 

在 具体 介绍 上 述 方向 上 的 研究 细节 之 前 , 我 们 会 先 回顾 世界 知识 获取 领域 的 相关 现 
有 方法 , 并 看 重 对 关系 抽取 领域 的 发 展 脉 络 进行 梳理 , 指出 我 们 的 工作 与 现 有 方法 之 间 
的 关联 。 


3.2 ”相关 工作 


在 介绍 相关 工作 之 前 , 我 们 首先 简要 介绍 关系 抽取 中 的 常用 符号 。 我 们 将 一 个 知识 
图 谱 表 示 为 9 ={E, R,T} HE ERT PARRA, KRAMSBLNRA. (h,r,t) €T 
表示 h, te E 之 间 存 在 关系 7 eR。 对 于 给 定 的 实体 对 (ht) 关系 抽取 由 在 从 包含 (h,t) 
的 若干 语句 中 挖掘 语义 从 而 最 终 获取 (h,t) 的 关系 7。 这些 包含 (h,t) 的 句子 则 被 聚集 为 
实体 对 的 实例 包 Sent) = {Sins Stay 包 中 的 每 个 实例 s1; ,) 代表 一 个 由 词组 成 的 序 
列 {w1, w2,- }o 


3.2.1 有 监督 的 关系 抽取 模型 


关系 抽取 是 自然 语言 处 理 领 域 中 的 重要 任务 之 一 ,也 是 获取 世界 知识 的 必由之路 。 之 
前 的 研究 人 员 已 经 在 关系 抽取 方面 做 出 了 诸多 工作 , 尤其 是 有 监督 的 关系 抽取 系统 的 构建 。 
传统 的 有 监督 关系 抽取 模型 主要 基于 统计 方法 , 包括 特征 工程 方法 | 92 97, 145、 核 函数 方 
法 [29, 44, 136, 193, 223, 224, 227] 、 图 模型 方法 [163, 164, 169, 216] 、 特 征 嵌 入 方法 [63, 160, 196] 。 尽管 
上 上 述 统计 关系 抽取 模型 已 家 广泛 研 究 ， 但 它们 仍 面 临 一 些 挑战 。 特 征 工程 方法 的 核心 是 设 
计 准 确 有 效 的 特征 ， 这 需要 诸多 工作 来 细致 观察 语言 现象 并 分 析 它 们 对 提取 关系 的 贡献 。 
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与 特征 工程 方法 中 的 复杂 特征 提取 相 比 ， 核 函数 方法 中 的 核 函 数 设计 更 加 简单 , 但是， 这 
仍然 需要 大 量 的 工作 来 精心 设计 核 函数 。 图 模型 方法 和 特征 嵌入 方法 在 一 定 程度 上 实现 了 
无 须 过 多 人 为 干预 的 有 效 特征 的 构建 和 关系 预测 , 然而 , 这些 结构 简单 的 模型 的 拟 合 能 力 
十 分 有 限 , 难以 取得 令 人 满意 的 结果 。 

近年 来 , 随 着 深度 学 习 的 快速 发 展 ， 有 监督 的 神经 关系 抽取 模型 得 到 了 广泛 的 关注 
与 研究 。 与 传统 的 统计 模型 相 比 , 这 些 神经 抽取 模型 无 须 进行 明确 的 语言 分 析 就 能 够 精 
准 捕获 文本 信息 。 除 了 能 够 摆脱 复杂 易 错 的 特征 工程 ,神经 模型 本 身 的 模型 性 能 也 十 分 
强大 。 相 较 于 传统 的 图 模型 方法 与 特征 嵌入 方法 ,神经 模型 能 够 更 好 地 拟 合 数据 。 有 监 
督 的 神经 关系 抽取 模型 的 研究 主要 集中 在 引入 各 种 神经 网 络 以 从 文本 中 提取 语义 特征 并 
对 关系 进行 分 类 。 受 计算 机 视觉 任务 中 各 种 卷 积 神经 网 络 的 启发 ， 卷 积 神经 网 络 首先 被 
用 于 关系 抽取 ， 并 被 扩展 到 诸多 变种 模型 gr, 116, 147, 168, 219]。 之 后 ,为 了 更 好 地 建 模 自 
然 语 言 的 序列 性 特征 ， 递 归 神经 网 络 也 被 引入 (146, 180, 203, 221, 225, 228] 。 从 语言 结构 分 析 
的 角度 出 发 ， 基 于 依存 关系 的 神经 模型 [30, 120, 179, 200, 207, 208) 也 被 提出 ， 通 过 语义 依存 
分 析 来 进行 关系 抽取 。 


3.2.2 ”远程 监督 的 关系 抽取 模型 


尽管 有 监督 的 关系 抽取 模型 取得 了 可 观 的 效果 , 但 这 些 方法 大 多 需要 大 量 的 标注 数 
据 , 而 构建 大 规模 的 标注 数据 需要 耗费 大 量 的 时 间 与 人 力 物 力 。 为 了 解决 这 个 问题 , Mintz 
等 人 13 通过 远程 监督 方法 将 纯 文本 与 知识 图 谱 进 行 对 齐 , 并 目 动 标注 训练 数据 。 远 程 
监督 遂 闸 以 一 个 极 强 的 局 发 式 条 件 来 进行 数据 获取 ， 具体 来 说 : 如 果 两 个 实体 在 知识 图 
PARKA, 那么 包含 这 两 个 实体 的 所 有 句子 都 将 被 视 为 其 语义 足以 表达 这 种 天 系 。 例 
W, FRAY], HA, ER? BR) 是 世界 知识 图 谐 中 的 关系 事实 。 远 程 监督 将 包含 
这 两 个 实体 的 所 有 人 句子 视 为 创建 者 这 个 关系 的 训练 实例 。 虽然 这 是 目 动 标记 训练 数据 的 
有 效 策 略 , 但 其 过 强 的 设 定 不 可 避免 地 会 产生 错误 标注 的 问题 。 例 如 ,“ 比 尔 ， 盖 蒋 转 加 
瓯 善事 业 与 第 软 公 司 在 美国 与 欧盟 遇 到 的 反 托 拉 斯 问题 有 关 。” 这 人 杀 话 并 不 表达 创建 者 
层面 的 关系 , 但 仍 将 锯 标 注 为 创建 者 这 个 关系 的 一 个 训练 实例 。 

为 了 解决 远程 监督 中 不 可 避免 的 错误 标注 问题 , 不 少 工作 者 力 于 引入 多 实例 学 习 方 
法 来 缓解 噪声 问题 。 早期 的 多 实例 学 习 方法 可 以 同时 考虑 每 个 实例 标注 的 准确 性 , 进而 
FE ll TE A eS A GAR» 并 在 预测 药物 活性 等 训练 数据 标注 过 于 模糊 的 问题 上 取得 
了 不 错 的 效果 。Bunescu 等 人 PI 将 弱 监 督学 习 与 多 实例 学 习 相 结合 , 并 将 其 扩展 到 关系 
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抽取 上 。Riedel 等 人 459 将 基于 远程 监督 的 关系 抽取 问题 形式 化 为 多 实例 单 标签 问题 ， 
之 后 Hoffmann 与 Surdeanu 等 人 8?) 182) 更 进一步 地 形式 化 为 多 实例 多 标签 学 习 问 题 。 

上 述 方法 均 基 于 人 工 特 征 提取 ， 并 强烈 依赖 于 目 然 语言 处 理工 具 来 生成 特征 ， 所 以 
在 数据 标注 错误 之 外 也 受到 了 特征 提取 错误 的 附 帝 影响 。 如 我 们 在 有 监 否 的 关系 抽取 模 
型 中 提 到 的 那样 , 伴随 看 深度 学 习 厂 沁 应 用 于 各 个 领域 , 许多 研究 人 员 看 手 蔡 试 使 用 神 
经 网 络 来 提取 特征 用 于 关系 抽取 。Zeng 等 全 相对 应 地 将 多 实例 学 习 与 神经 网 络 模 
型 相 结 合 以 进行 基于 远程 监督 的 关系 抽取 。 尽 管 基于 远程 监督 的 神经 关系 抽取 模型 很 好 
地 兼顾 了 和 鲁 棒 性 与 有 效 性 , 并 被 广泛 运用 于 知识 获取 任务 之 中 , 但 仍然 存在 诸多 问题 。 

(1) Zeng 等 人 假设 每 个 实体 对 所 对 应 的 实例 集合 中 只 有 一 个 实例 是 有 效 的 。 因 此 ， 
这 样 的 机 制 将 损失 大 量 包 含 在 被 忽略 实例 中 的 丰富 信息 。 针 对 这 样 的 问题 ， 我 们 提出 面 
癌 多 实例 的 语句 级 别 注意 力 机 制 ， 该 方法 在 规避 噪声 的 同时 仍然 可 以 充分 利用 所 有 实例 
的 信息 进行 关系 抽取 。 对 于 信息 量 丰 宇 的 实例 ,我们 的 注意 力 机 制 可 以 赋予 其 更 高 的 权 
重 , 而 对 于 信息 量 较 少 及 错误 标注 的 实例 , 我 们 的 注意 力 机 制 将 赋予 其 较 低 的 权重 以 减 
少 其 对 模型 训练 的 影响 。 

(2) 以 往 的 关系 抽取 模型 均 对 各 个 关系 独立 进行 考虑 , 对 每 类 关系 , 常 汕 使 用 一 个 
单独 的 模型 来 从 含有 噪声 的 数据 中 选择 关系 相关 的 实例 。 这些 方法 忽略 了 关系 之 间 丰 家 
的 语义 关联 信息 。 为 了 利用 关系 间 直 证 的 关联 信息 , BINA KANE KAY Ee HE 
me KK, 提出 了 一 个 回 新 的 层次 注意 力 机 制 , 在 关系 层次 的 每 一 层 上 对 实例 进行 权 
重 评定 ， 从 而 完成 不 同 粒度 的 降 品 。 与 此 同时 ， 关 系 层次 可 以 帮助 考虑 关系 间 的 关联 信 
Fh, 进而 利用 高 频 关 系数 据 帮 助 训练 低频 长 尾 关 系 。 

(3) 现 有 的 关系 抽取 系统 只 关注 从 文本 中 直接 抽取 实体 之 间 的 关系 , 因而 难以 应 对 
训练 数据 中 的 长 尾 问题 。 引 入 多 源 的 额外 信息 流 ， 将 有 助 于 缓解 长 尾数 据 市 来 的 问题 。 
对 此 , 我 们 研究 如 何 将 丰富 的 额外 信息 与 文本 结合 来 加 强 关 系 抽取 效果 。 我 们 在 此 方面 
者 重 研 究 如 何 结合 外 部 的 知识 图 谱 及 多 语 诗 丰 官 语 料 来 进行 抽取 系统 的 训练 。 

本 章 的 剩余 部 分 将 详细 讨论 我 们 的 改进 工作 , 并 给 出 更 多 的 细节 。 


3.3 ”基于 选择 性 注意 力 机 制 的 关系 抽取 


为 了 综合 利用 包含 同一 实体 对 的 实例 信息 进行 关系 抽取 , 本 节 将 介绍 一 种 基于 语 何 
级 别 选 择 性 注意 力 机 制 的 神经 网 络 模型 (ATT)， 用 于 构建 基于 远程 监督 的 关系 抽取 系 
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统 。 如 图 3.1 所 示 ， 该 模型 使 用 卷 积 神经 网 络 来 提取 语句 实例 的 语义 特征 并 以 语义 网 量 
的 形式 来 呈现 。 为 了 充分 利用 包含 同一 实体 对 的 所 有 实例 的 信息 ， 以 及 解决 远程 监督 市 
来 的 错误 标注 问题 , 该 模型 在 这 些 实例 的 语义 同 量 上 构建 语句 级 别 的 注意 力 机 制 ， 从 而 
动态 地 减少 噪声 实例 所 对 应 的 权重 , 同时 提升 有 效 实例 所 对 应 的 权重 。 最 后 , 将 利用 注 
意 力 机 制 计算 的 权重 与 对 应 实例 向量 的 加 权 求 和 作为 特征 问 量 来 进行 关系 抽 取 。 


Sih, i) 
au ou Ors i On 
20 3 | 
Sih, d Sih, i) Sih, 0 (h t) 


1 2 o eae Tk 
Sih, t) Sih, À Sth, Ù Sih, 0 


图 3.1 基于 语句 级 别 注意 力 机 制 的 卷 积 神经 网 络 模型 
注 : 其 中 , sii b 和 si 4) 分 别 表示 原始 的 实例 语句 与 它 对 应 的 经 过 卷 积 神经 网 络 后 的 向 量化 表示 ，axi 是 由 注意 力 
机 制 模型 分 配给 这 个 实例 的 权重 ,s(n,t) 表示 这 对 实体 对 对 应 的 实例 集合 的 最 终 向 量化 表示 。 


3.3.1 ”算法 模型 


给 定 实 体 对 (h,t) 及 包含 实体 对 的 实例 集合 Say = {shy ohoh KENAR 
模型 将 预测 (h,t) 与 每 个 关系 re RR 形成 世界 知识 的 概率 。 整体 模型 主要 分 为 以 下 两 个 
部 分 。 

。 语 句 编码 器 ”给 定 一 个 实例 及 其 包含 的 两 个 目标 实体 ， ATT 用 一 个 卷 积 神经 网 

络 来 提取 句子 的 向 量 表示 。 
。 选 择 性 注意 力 机 制 ” 当 获取 到 所 有 实例 的 向 量 表示 后 , ATT 使 用 语句 级 别 的 选择 
性 注意 力 机 制 来 选择 那些 能 够 真正 表达 对 应 关系 的 语句 ,并 赋予 其 更 高 的 权重 。 
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1. 语句 编码 器 


如 图 3.2 Prax, ATT 通过 眷 积 神经 网 络 将 给 定 的 句子 s= {wi,… ,wm} 转换 成 它 所 
对 应 的 分 布 式 表示 问 量 so 


非 线 性 层 输出 向 量 
激活 操作 
池 化 层 
卷 积 层 
卷 积 操 作 
HESR 词 回 量 
位 置 问 量 
比尔 建 并 


图 3.2 ”语句 编码 器 的 着 积 神 经 网 络 结构 


1) 输入 表示 

这 部 分 分 为 词 问 量 与 位 置 向 量 两 部 分 。 卷 积 神经 网 络 CNN 输入 的 是 句子 s 的 单词 
序列 。ATT 首先 使 用 词 砍 入 矩阵 将 每 个 输入 单词 变换 成 对 应 的 词 向 量 。 在 词 向 量 之 外 ， 
为 了 刻画 实体 对 在 句子 中 所 处 的 位 置 , ATT 还 对 所 有 单词 到 实体 的 相对 位 置 进 行 了 向 量 
化 表示 。 

(1) 词 向 量 。 词 问 量 由 在 将 离散 学 符 形式 的 单词 转换 为 连续 向 量 空间 中 的 分 布 式 
表示 ， 从 而 捕 提 到 单词 所 对 应 的 语义 信息 。 给 定 一 个 句子 s 及 其 包含 的 m 个 单词 s = 
fw ,wm}， 每 个 单词 w 将 由 一 个 实 值 回 量 所 表示 ,， 即 其 所 对 应 的 词 回 量 。 

(2) 位 置 向 量 。 在 关系 抽取 任务 中 , 一 般 情况 下 越 靠近 目标 实体 的 单词 越 具 有 信息 
E, 并 对 最 终 确 定 目标 实体 对 的 关系 具有 帮助 。 类 似 于 Zeng R13| 的 处 理 方法 , ATT 将 各 
单词 到 目标 实体 对 的 相对 距离 向 量化 ,以 此 来 帮助 神经 网 络 去 观察 每 个 单词 相对 于 目标 
实体 的 相对 距离 。 例 如 ,在 句子 “ 比尔 。， 盖 英 是 微软 公司 的 创始 人 ”中 , “是 ”距离 头 实 
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体 比 尔 。 盖 英 与 尾 实体 微软 公司 的 相对 距离 分 别 为 -1 与 1, ATT 将 -1 与 1 进行 了 加 
量化 。 位置 向 量 最 终 被 定义 为 单词 相对 于 头 尾 实 体 的 距离 向 量 组 合 。 

如 图 3.2 所 示 , 最 终 每 个 单词 的 词 回 量 与 位 置 癌 量 被 拼接 起 来 作为 神经 网 络 的 输入 。 
上 述 词 癌 量 与 位 置 癌 量 是 关系 抽取 中 的 基本 设 定 , 在 后 续 的 相关 工作 介绍 中 , 我 们 将 不 
再 一 一 展开 其 细节 。 

2) 编码 层 

在 将 句子 s = {wi,… ,wm} 转化 为 输入 回 量 {wi,… ,wm} 之 后 ，ATT 模型 使 用 卷 
积 操作 来 汇总 所 有 这 些 输入 特征 。 在 卷 积 层 中 , 一 个 长 度 为 1 的 滑动 窗口 在 所 有 句子 上 
提取 局 部 特征 。 在 图 3.2 所 展示 的 例子 中 ,其 滑动 窗口 的 大 小 1 为 3。 

在 这 里 ， 卷 积 操作 被 定义 为 一 个 输入 问 量 序列 和 卷 积 核 和 矩阵 W 间 进 行 的 矩阵 乘法 
操作 。 我 们 定义 ù 为 第 i 个 滑动 窗口 内 的 单词 输入 向量 的 拼接 则 有 


w; = [w;_ 


HS feta Be OMAR OIIN, AY RE SSR Ae Be CI A TS BE 
定 的 )， 所 以 对 于 超出 的 范围 ,我 们 统一 使 用 填充 加 量 来 进行 空 日 位 填充 。 郑 积 层 的 第 i 
个 营 积 输出 则 为 


| (3.1) 


h;i = f(Ww; +b) (3.2) 


其 中 , b fe “Mb Blt, f(-) AERO PAR, 第 用 的 如 双 曲 正切 函数 。 
句子 的 最 终 表 示 则 通过 如 下 最 大 字 化 操作 得 到 : 


[s]: = pmax [hl (3.3) 


其 中 , [-]; 表示 向 量 的 第 i 维 数值 。 此 外 ，Zeng SA P18 提出 了 卷 积 神经 网 络 的 一 种 变 
体 PCNN,， 采 用 了 分 段 池 化 操作 来 进行 关系 抽取 。 卷 积 层 输出 结果 被 头 实 体 和 尾 实体 分 
成 了 3 部 分 , 最 大 池 化 操作 也 相应 地 在 3 部 分 上 分 别 进行 , 即 


[s1]; = max [hi]; 


[s2]; =, max |hil; (3.4) 


[s3]; = a cn eal 


其 中 , i M i 是 头 尾 实体 的 句 中 位 置 , 最 后 的 句子 问 量 为 三 部 分 池 化 结果 的 拼接 ,， 即 


s = |s1; $2; S3] (3.5) 
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由 于 卷 积 神经 网 络 CNN 及 其 变种 PCNN 也 被 广泛 应 用 于 关系 抽取 模型 中 进行 编 
码 , 在 后 续 的 模型 介绍 中 , RIT AMA A AEA IE 


2. 面 问 多 实例 的 选择 性 注意 力 机 制 


假设 有 一 个 集合 S01) BET n 个 句子 实例 , 每 个 实例 都 包含 实体 对 (h, t) 即 Sar ty = 
{Sina Stray te 在 预测 h 与 1 之 间 是 否 存 在 关系 7 时 , 为 了 充分 利用 所 有 实例 的 信息 ， 
我 们 的 模型 将 集合 Sno 表示 成 一 个 统一 的 特征 问 量 来 进行 预测 。 很 显然 ， 这 个 统一 特 
征 向 量 依赖 于 所 有 实例 的 表示 {sb ,),… ,swy}， 并且 每 个 实例 的 表示 siny 都 或 多 或 少 
地 含有 一 些 信息 有 助 于 判定 头 尾 实体 (h,t) 是 否 存在 关系 ro WI, 一 个 很 直接 的 想法 便 
是 通过 实例 向 量 st, y 的 加 权 平 均 来 计算 得 到 Sae 的 统一 表示 向量 , 即 


S(h,t) = D 0: 81,2) (3.6) 


其 中 ,as 表示 实例 向 量 si, ,的 权重 。 在 本 章 介绍 的 模型 中 ,一 种 语句 级 别 选择 性 注意 
力 机 制 被 引入 来 定义 。 此 时 a; 也 就 相应 地 被 定义 为 


exp(e;) (3.7) 


a X exp(ek) 


k 
其 中 , e 是 一 个 能 量 函数 。 通 过 该 函数 , 我 们 可 以 刻画 输入 的 语句 si y 和 想 要 预测 的 关 
系 类 型 r 在 多 大 程度 上 是 匹配 的 。e; 越 高 表示 语句 si, ， 越 能 够 表述 关系 r 的 语义 。 经 
过 大 量 实验 比较 ,ATT 选择 了 双 线 性 函数 作为 计算 e; 的 函数 : 


Ci = qr Asth t) (3.8) 


其 中 , 4 是 计算 双 线 性 函数 的 矩阵 ,gq, 是 注意 力 机 制 中 关系 7 的 特征 问 量 。 考虑 到 远程 
监督 不 可 避免 地 会 带 来 错误 标注 , 采用 上 述 的 注意 力 机 制 可 以 有 效 地 减少 含有 了 噪声 的 名 
子 所 对 应 的 权重 值 ， 同 时 兼顾 综合 利用 所 有 句子 信息 的 优势 。 

最 后 我 们 通过 一 个 Softmax 层 来 计算 条 件 概率 ， 即 


Plr | S00,0) = To (3.9) 


> exp (lolx) 
k=1 
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其 中 , 8 是 整体 模型 的 参数 ,|RR| 是 关系 类 型 的 总 数量 , o 是 神经 网 络 的 最 终 输 出 问 量 ， 
它 表示 对 所 有 关系 类 型 的 预测 评分 , 具体 定义 如 下 所 示 : 


Oo = M Sint) +d (3.10) 


其 中 , d 是 偏 置 癌 量 , M 是 所 有 关系 类 型 的 表示 矩阵 ( 即 所 有 关系 类 型 对 应 的 特征 问 量 
所 构成 的 矩阵 )。 


3.3.2 ”实验 分 析 


1. 数据 集 和 评测 指标 

在 关系 抽取 任务 中 ，Riedel 等 人 59) 开发 的 数据 集 被 全 世界 研究 者 广泛 应 用 ， 所 以 
本 节 模 型 也 在 该 数据 集 上 验证 模型 效果 。 该 数据 集 是 通过 将 Freebase 知识 图 谱 中 的 世界 
知识 与 《纽约 时 报 》 语 料 库 NYT) 中 的 语 料 进 行 对 齐 而 生成 的 。 整 个 数据 集合 包含 53 种 
关系 类 型 , 包括 一 种 特殊 类 型 关系 一 NA, 其 表示 头 尾部 实体 之 间 没 有 明确 定义 关系 。 
与 之 前 的 工作 类 似 4134 ,本 节 通 过 比较 模型 在 测试 集中 挖掘 出 的 世界 知识 与 Freebase 中 
的 世界 知识 的 重合 度 来 评估 关系 抽取 效果 。 而 具体 的 模型 性 能 则 通过 精度 -召回 率 曲 线 
和 最 高 置信 度 预 测 精 度 (PON) 来 体现 。 

2. 实验 设置 

遵循 以 前 的 研究 工作 , 我 们 使 用 训练 集 上 的 三 折 交 又 验证 来 调整 我 们 的 模型 。 我们 
使 用 网 格 搜索 来 确定 最 优 参 数 , 并 在 {0.1,0.01, 0.001, 0.000 1} 中 选择 学 习 率 , 滑动 窗口 大 
小 的 选择 范围 为 {1,2,:… ,8}, 语句 艇 入 回 量 的 维度 大 小 在 {50,60,--- ,300} 中 选择 ， 以 
及 在 {40, 160, 640,1 280} 中 选择 训练 批 次 大 小 。 对 于 其 他 参数 ， 因 为 它们 对 结果 影响 不 
K, 所 以 我 们 按照 Zeng FA 218 使 用 的 参数 值 进行 设置 。 对 于 训练 , 我 们 将 所 有 训练 数 
据 的 迭代 次 数 设 置 为 25。 FER 3.1 中 , 我 们 具体 展示 了 实验 使 用 的 所 有 超 参 数 。 


表 3.1 ”模型 超 参数 设置 


卷 积 窗口 大 小 3 
句子 表示 维度 230 
词 向 量 维度 50 
位 置 问 量 维度 5 
训练 批 次 大 小 160 


学 习 率 0.01 
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3. 选择 性 注意 力 机 制 的 有 效 性 验证 


为 了 证 明 语 句 级 别 选择 性 注意 力 机 制 的 有 效 性 , 我 们 选择 Zeng SA 218 中 提出 的 
卷 积 神经 网 络 模型 CNN 及 其 变种 模型 PCNN 作为 句子 编码 器 。 我 们 将 两 种 不 同类 型 的 
卷 积 神经 网 络 分 别 与 句子 级 别 注意 力 机 制 ATT, ATT 的 基线 版 本 AVE (在 该 版 本 中 , 每 
个 实例 集合 的 向 量 表示 为 集合 内 部 实例 的 平均 向 量 ) 及 Zeng 等 人 P 提出 的 多 实例 学 
习 方 法 ONE 进行 了 结合 , 并 比较 了 它们 的 表现 。 

从 图 3.3, 我 们 可 以 得 到 如 下 观察 结果 。 


l o] 


0.4 $- 
0.3 : : i i i : 0.3 i i P i i i H 
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 
召回 率 召回 率 
(a) CNN, CNN+ONE, CNN+AVE, (b) PENN, PCNN+ONE, PCNN+AVE, 
CNN+ATT 模型 的 精度 -召回 率 曲 线 PCNN-+ATT 模 型 的 精度 -召回 率 曲 线 


3.3 ”各 模型 的 精度 -召回 率 曲 线 


(1) 对 于 CNN Ñ PCNN, ONE 方法 与 CNN/PCNN 相 比 具有 更 好 的 性 能 。 原因 在 
于 原始 的 基于 远程 监督 得 到 的 训练 数据 包含 大 量 的 噪声 数据 , 而 噪声 数据 会 损害 关系 抽 
取 的 性 能 。ONE 方法 引入 多 实例 学 习 ,， 这 在 一 定 程度 上 减 绥 了 该 问题 。 

(2) 与 CNN/PCNN 相 比 ，AVE 方法 对 关系 抽取 模型 的 效果 提升 是 有 作用 的 。 这 
表明 考虑 更 多 的 实例 有 利于 关系 抽取 , 因为 噪声 信息 可 以 通过 信息 的 互补 来 减少 负面 影 
啊 , 更 多 的 实例 也 斋 来 了 更 多 的 信息 。 

(3) 对 于 CNN 和 PCNN，AVE 方法 与 ONE 方法 相 比 具 有 相似 的 性 能 。 这 说 明 , 尽 
E AVE 方法 引入 了 更 多 的 实例 信息 , 但 由 于 它 将 每 个 句子 赋予 同等 的 权重 ， 它 也 会 从 
错误 标注 的 语句 中 得 到 负面 的 噪声 信息 ， 从 而 损害 关系 抽取 的 性 能 。 所 以 AVE 方法 与 
ONE 方法 难以 分 出 优 劣 。 

(4) 对 于 CNN 和 PONN, 与 包括 AVE 方法 在 内 的 其 他 方法 相 比 ，ATT 方法 在 整个 
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召回 范围 内 实现 了 最 高 的 精度 。 它 表明 , 我 们 所 提出 的 选择 性 注意 力 机 制定 有 区 的 。 它 
可 以 有 效 地 滤 除 无 意义 的 句子 , 解决 基于 远程 监督 的 关系 抽取 中 的 错误 标注 问题 ， 并 尽 
可 能 地 充分 利用 每 一 个 实例 的 信息 进行 天 系 抽取 。 


4. 实例 数量 的 影响 分 析 


由 于 选择 性 注意 力 机 制 的 优势 在 于 处 理 包 含 多 个 实例 的 实体 对 ， 所 以 实验 比较 了 
CNN/PCNN+ONE, CNN/PCNN+AVE, 以 及 采用 了 注意 力 机 制 的 CNN/PCNN+ATT 在 
具有 不 同 实例 数量 的 实体 对 集合 上 的 表现 。 具体 有 以 下 3 个 实验 场景 。 

e One: 对 于 每 个 测试 实体 对 ， 随 机 选择 其 对 应 的 实例 集合 中 的 一 个 实例 ， 并 将 这 


TKA HERRA 
e Two: 对 于 每 个 测试 实体 对 ， 随机 选择 其 对 应 的 实例 集合 中 的 两 个 实例 ， 并 将 这 
两 个 实例 用 作 关 系 预 测 。 


。All: 对 于 每 个 测试 实体 对 , 使 用 其 对 应 的 实例 集合 中 的 所 有 实例 进行 关系 预测 。 

值得 注意 的 是 ,在 训练 过 程 中 , 我 们 使 用 了 所 有 实例 。 我们 将 汇报 所 有 预测 中 评分 
最 高 的 N 项 预测 的 预测 精度 PON, 具体 有 P@100. P@200, P@300 及 它们 的 平均 值 。 各 
模型 在 实体 对 拥有 不 同 实例 数目 情况 下 的 PON 的 效果 对 比如 表 3.2 所 示 。 


表 3.2 ”各 模型 在 实体 对 拥有 不 同 实 例 数目 情况 下 的 PON 的 效果 对 比 
实验 设置 One Two All 

P@N (%) 100 200 300 Mean 100 200 300 Mean 100 200 300 Mean 
CNN+ONE 68.3 60.7 53.8 60.9 70.3 62.7 55.8 629 67.3 64.7 581 634 
+AVE 75.2 67.2 588 67.1 683 63.2 605 640 644 602 601 60.4 
+ATT 76.2 65.2 60.8 67.4 76.2 65.7 62.1 68.0 76.2 686 59.8 68.2 
PCNN+ONE 73.3 648 568 65.0 703 67.2 63.1 66.9 72.3 69.7 641 68.7 
+AVE 71.3 63.7 57.8 643 73.3 65.2 621 669 73.3 66.7 62.8 67.6 
+ATT 73.3 69.2 60.8 67.8 77.2 71.6 66.1 71.6 76.2 73.1 67.4 72.2 


从 表 3.2 中 ,我们 可 以 观察 到 : 

(1) 对 于 CNN 和 PCNN，ATT 方法 在 所 有 测试 设置 中 均 达 到 最 佳 性 能 。 它 表明 了 
句子 级 选择 性 注意 力 机 制 对 于 多 实例 学 习 的 有 效 性 。 

(2) 对 于 CNN 和 PCNN, AVE 方法 在 One 测试 设置 下 , 效果 与 ATT 方法 相当 。 然 
而 ， 当 每 个 实体 对 的 测试 实例 数量 增加 时 ，AVE 方法 的 性 能 几乎 没有 改善 。 随 着 实例 的 
增加 , 它 其 至 在 PQ100、P@200 中 逐渐 下 降 。 原 因 在 于 , 由 于 AVE 方法 对 每 个 实例 同等 
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ATS, 实例 包含 的 不 表达 任何 关系 的 噪声 数据 对 于 关系 抽取 的 表现 会 产生 负面 影 啊 。 
(3) 在 One 测试 设置 下 , CNN-+AVE 和 CNN+ATT 与 CNN+ONE 相 比 有 5 一 8 个 
百分点 的 改进 。 每 个 实体 对 在 这 个 测试 设置 中 只 有 一 个 实例 ,这 些 方法 的 唯一 区 别 来 目 
训练 方式 的 不 同 。 因 此 ， 实 验 结果 表明 利用 所 有 的 实例 会 市 来 更 多 的 信息 ,尽管 这 也 可 
能 带 来 一 些 额 外 的 噪声 。 这 些 附带 的 信息 在 训练 过 程 中 提升 了 模型 效果 。 
5. 与 基于 人 工 特征 工程 的 方法 的 性 能 比较 
为 了 验证 我 们 所 提出 的 方法 , 我 们 选择 了 以 下 3 种 基于 人 工 特征 的 方法 来 进行 性 能 
比较 。 
e Mintz 134 是 一 个 传统 的 基于 远程 监督 的 模型 。 
e MultiR Is3 提出 了 一 个 概率 图 模型 用 于 多 实例 学 习 , 它 的 特点 在 于 可 以 处 理 关 系 
类 型 之 间 的 重合 。 
o MIML 8) 同时 考虑 了 多 实例 和 多 关系 类 型 两 种 情况 ( 即 每 个 实体 对 可 能 有 多 个 
人 句子, 也 可 能 有 多 个 关系 类 型 )。 
我 们 通过 这 些 作者 发 布 的 代码 ， 实 现 了 这 些 模型 。 每 个 方法 的 精度 -召回 率 曲 线 如 
图 3.4 所 示 。 
从 图 3.4 中 , 我 们 可 以 观察 到 : 


0 005 01 0.15 02 025 03 035 04 
召回 率 


图 3.4 各 统计 模型 与 神经 模型 的 精度 -召回 率 曲 线 


(1) 在 整个 召回 率 范围 内 , CNN/PCNN+ATT 显著 优 于 所 有 基于 人 工 特 征 的 方法 。 
当 召 回 率 > 0.1 时 , 基于 特征 的 方法 的 性 能 迅速 下 降 。 相 比 之 下 , 在 召回 率 达 到 约 0.3 之 
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表 ， 我 们 的 模型 都 具有 合理 的 准确 率 。 这 表明 人 工 设 计 的 特征 不 能 简洁 地 表达 实例 的 语 
义 含 义 ， 而 自然 语言 处 理工 具 带 来 的 错误 则 会 损害 关系 抽取 的 性 能 。 相 比 之 下 ， 可 以 目 
主 学 习 每 个 实例 向 量 表示 的 CNN/PCNN+ATT 模型 可 以 很 好 地 表达 每 个 实例 的 语义 信 
息 。 

(2) 在 整个 召回 率 范 围 内 ，PCNN+ATT 与 CNN+ATT 相 比 表现 要 好 得 多 。 这 意味 
着 选择 性 注意 力 机 制 可 以 很 好 地 考虑 所 有 实例 的 全 局 信息 , 但 无 法 使 模型 对 于 单个 实例 
的 理解 和 表示 变 好 。 因此 , 如 果 有 更 好 的 句子 编码 器 , 那么 模型 的 性 能 可 以 进一步 提高 。 


6. FAA 


NYT 语 料 上 选择 性 注意 力 机 制 的 例子 如 表 3.3 所 示 。 对 于 每 个 关系 , H 3.3 展示 了 
其 对 应 的 拥有 高 注意 力 权 值 的 句子 和 拥有 低 注 意 力 权 值 的 句子 , 并 且 对 每 个 实体 对 都 进 
行 了 加 粗 显 示 。 通过 表 3.3， 可 以 发 现 : 第 一 个 例子 是 与 关系 员工 相关 的 。 拥 有 低 注意 力 
权 值 的 句子 并 没有 很 好 地 表达 两 个 实体 间 的 关系 , 然而 拥有 高 注意 力 权 值 的 句子 可 以 很 
好 地 表达 梅 尔 。 卡 尔 马 津 是 和 天狼星 XM 卫星 广播 公司 的 执行 主席 。 第 二 个 例子 是 与 关系 
出 生地 相关 的 。 拥 有 低 注 意 力 权 值 的 铅 子 表达 了 轧 斯 特 。 海 弗 里 格 在 哪里 去 世 ， 而 不 是 
像 拥有 融和 注意 力 权 值 的 句子 所 表达 的 他 在 哪里 出 生 。 


表 3.3 NYT 语 料 上 选择 性 注意 力 机 制 的 例子 
RRA AL 
在 霍华德 。 斯 特 恩 正 准备 跟着 他 之 前 的 老板 梅 尔 。 卡 尔 马 津 给 天 狼 星 XM 卫星 
广播 公司 制作 脱口 秀 节目 的 时 候 , 霍 兰 德尔 评价 道 …… 
高 注意 力 权 值 句 子 。 天 狼 星 XM 卫星 广播 公司 的 执行 主席 梅 尔 。 卡 尔 马 津 打 了 一 个 电话 ……: 
关系 名 出 生地 
低 注 意 力 权 值 句子 ”瑞士 男 高 音 …… 恩 斯 特 ， 海 弗 里 格 在 一 个 周 六 逝世 于 瑞士 的 达 沃 斯 …… 
高 注意 力 权 值 句子 Be SRE 1919 年 7 月 6 日 生 于 达 沃 斯 , 并 在 神学 院 接受 了 教育 …… 


低 注意 力 权 值 句 子 


3.3.3 ”小结 


在 本 廊 中 , 我 们 提出 了 基于 语句 级 别 选择 性 注意 力 机 制 的 神经 网 络 模型 。 该 模型 可 
以 充分 利用 包含 同 一 实体 对 的 所 有 实例 的 信息 , 并 在 一 定 程度 上 解决 还 程 监督 市 来 的 销 
误 标 注 问题 。 在 实验 中 , 基于 语句 级 别 选 择 性 注意 力 机 制 的 神经 网 络 模型 相 比 于 目前 主 
要 的 特征 工程 方法 及 神经 网 络 方法 具有 显著 优势 , 取得 了 显著 且 一 致 的 性 能 提升 效果 。 
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3.4 ”基于 天 系 层次 注意 力 机 制 的 天 系 抽取 


为 减轻 远程 监督 中 错误 标注 市 来 的 影响 , 已 有 大 量 工作 致力 于 从 噪声 数据 中 识别 有 
MEG, 尤其 是 基于 选择 性 注意 力 机 制 的 方法 。 尽 党 如 此 ,大 多 数 方法 孤立 地 考虑 各 关 
关系 ， 即 对 每 类 关系 使 用 单独 的 模型 来 从 噪声 数据 中 选择 特定 关系 的 潜在 实例 。 然 而 ， 
关系 之 间 往 往 具有 丰富 的 语义 关联 , 这些 关联 对 关系 抽取 具有 深远 影 啊 。 

为 了 利用 关系 间 丰 郧 的 关联 信息 ， 本章 介 绍 一 种 靳 新 的 层次 注意 力 机 制 (HATT)。 如 
图 3.5 所 示 ， 类 似 于 基本 选择 性 注意 力 方法 ， 该 方法 根据 每 个 实例 在 表达 特定 关系 上 的 重 
要 程度 来 计算 一 个 注意 力 得 分 。 不 过 ,很 大 的 不 同 在 于 ， 层 次 注意 力 机 制 在 关系 层次 上 逐 
层 为 包含 同一 实体 对 的 实例 进行 权重 计算 。 与 以 往 的 模型 相 比 , 层次 注意 力 机 制 可 以 在 不 
同 的 层次 上 提供 不 同 粒度 的 信息 选择 与 噪声 处 理 能 力 , 确 层 的 注 蕊 力 计算 能 够 捕捉 更 特定 
化 的 关系 特征 ， 有 具有 与 传统 注意 力 机 制 闫 似 的 细 粒 度 实例 选择 能 力 。 顶 层 的 注意 力 计 算 只 
能 提供 粗 粒度 的 实例 选择 能 力 ， 但 是 其 能 够 捕捉 关系 间 的 关联 信息 。 考 虑 到 顶层 的 注意 力 
往往 覆盖 多 种 关系 ,， 有 更 充足 的 训练 数据 ,因此 其 能 够 增强 处 理 长 尾 关 系 的 能 力 。 


i 关系 层次 结构 


PP 


图 3.5 基于 关系 层次 注意 力 机 制 的 关系 抽取 模型 


3.4.1 ”算法 模型 


给 定 实体 对 (h,t) 及 其 实体 对 包 Su = {sho 08% y}> HATT 将 预测 (h,t) 与 每 
个 关系 + ER 形成 世界 知识 的 概率 。 如 图 3.5 所 示 , 模型 的 总 体 框架 包括 句子 编码 器 和 
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层次 注意 力 机 制 。 对 每 个 句子 st, E Sw5， 该 模型 使 用 句子 编码 器 将 其 语义 嵌入 sih a) 
中 。 由 于 本 节 模 型 的 句子 编码 器 为 卷 积 神经 网 络 ， 该 部 分 内 容 已 在 之 前 的 章节 中 有 过 详 
细 说 明 , 因而 这 里 不 再 就 此 进行 过 多 性 述 。 

并 非 Sa 中 的 所 有 实例 都 能 为 预测 ( 刀 之 间 的 关系 做 出 积极 贡献 。HATT 使 用 层 
次 注意 力 机 制 来 为 每 个 实例 sm 计算 实例 权重 ,并 通过 实例 向 量 的 加 权 和 来 构建 全 局 
表示 Sinz) 以 进行 关系 抽取 。 

1. 选择 性 注意 力 机 制 

首先 我 们 回顾 下 选择 性 注意 力 机 制 。 选 择 性 注意 力 机 制 为 每 个 实例 sm 计算 注意 
力 得 分 a;， 以 衡量 实例 在 表达 实体 间 关 系 方面 的 信息 量 。 具体 来 说 , 注意 力 机 制 为 每 类 
关系 7 eR DACP EM A) q 并 对 Shot = {st ays Stayt 中 每 个 实例 的 注意 力 定 
义 如 下 : 


ei = q, Asth 4) (3.11) 
explei (3.12) 


a; = Toole 
其 中 , A ADERE., VER ARH A BA TRA EME 
a Y assino S(r » 8(h,t) E Shat) (3.13) 
AMIEL, 我 们 用 下 式 表 示 这 种 基础 的 选择 性 注意 力 操 作 : 
rint) = ATT(Q,; {st ty o SW, 0)}) (3.14) 


2. 关系 层次 注意 力 机 制 


不 同 于 简单 的 选择 性 注意 力 机 制 ,， 本 节 模 型 引入 关系 内 在 的 层次 结构 ， 以 进行 特殊 
的 关系 层次 注意 力 操 作 。 一 般 地 , 给 定 一 个 知识 图 谱 9 (如 Freebase), HJREKA CAI 
关系 首都 ) 构成 的 关系 集 R, 我 们 可 以 生成 其 对 应 的 更 高 层次 的 关系 集 RE. 

一 般 来 说 , 高 层次 关系 集 里 的 关系 (如 关系 地 域 ) RABSS Hi, AU RARE 
关系 集中 的 多 个 子 关 系 。 ERE, 我 们 假设 不 同 关 系 的 子 关 系 互 不 相交 。 换言之 , 假设 关 
系 层 次 为 树 状 绩 构 。 该 生成 过 程 可 以 以 递归 的 形式 定义 。 在 实际 操作 中 , 我 们 以 R =R, 
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即将 关系 抽取 任务 中 涉及 的 所 有 关系 构成 最 奔 层 的 关系 集 , 在 执行 一 1 次 层次 生成 后 
得 到 总 共 上 层 的 层次 关系 集 {RI R, RE} 

如 图 3.5 所 示 , 对 于 关系 抽取 系统 需要 抽取 的 特定 关系 ri E Ri» 我 们 通过 如 下 方式 
回溯 关系 层次 以 构建 其 祖先 关系 的 层次 链 。 


(r1, Th) ERI X x RË (3.15) 


其 中 ， Ti—1 为 ri 的 子 关 系 。 
k 
同 普通 注意 力 机 制 一 样 ， 我 们 为 每 个 关系 rc | | Ri 分 配 一 个 查询 向 量 qg ATE 
¿=1 
RE, 我们 在 关系 层次 的 每 一 层 上 进行 注意 力 操 作 ,， 得 到 对 应 的 文本 关系 表示 : 
Tine) = ATT (Gp, {Siht SCH) }) (3.16) 


在 训练 过 程 中 , 高 层 得 询问 量 ( 即 具有 更 大 的 ;的 gq,,) 相 较 底层 关系 的 查询 问 量 能 
够 得 到 更 多 的 训练 实例 ,因此 高 层 查询 向 量 的 实例 选择 更 加 和 鲁 棒 但 粒度 较为 粗糙 。 相 反 
地 , 底层 查询 向 量 ( 即 具有 更 小 的 i 的 g, ) 则 能 够 进行 细 粒 度 的 实例 选择 , 但 其 往往 有 
数据 稀疏 的 问题 , 对 于 长 尾 的 底层 关系 而 言 更 是 如 此 ,其 表现 出 的 稳定 性 相对 较 差 。 
为 了 综合 利用 不 同 层次 上 不 同 粒 度 的 注意 力 特 性 , 我 们 基于 层次 选择 性 注意 力 机 制 
对 不 同 层 的 文本 关系 表示 进行 拼接 ,作为 实例 包 Sno 的 最 终 表 示 。 
S(h,t) = r,t): Ei Tial (3.17) 
最 终 , sw 5 将 会 被 作为 模型 后 续 部 分 的 输入 参与 条 件 概 率 计 算 , 并 通过 一 个 Softmax 
层 来 计算 条 件 概率 ， 即 
P(r | S00,0) = To (3.18) 
> exp((o]s) 
k=1 
其 中 ，6 是 全 部 模型 的 参数 ，| 尽 | 是 关系 类 型 的 总 数量 ，o 是 神经 网 络 的 最 终 和 输出 向 量 ， 
它 表 示 对 所 有 关系 类 型 的 预测 分 数 ,， 具体 定义 如 下 所 示 : 


o= Msnt+d (3.19) 


其 中 , d xe Un et, M 是 所 有 关系 类 型 的 表示 窍 阵 ( 即 所 有 关系 类 型 对 应 的 特征 问 量 
所 构成 的 矩阵 )。 
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3.4.2 ”实验 分 析 


1. 数据 集 和 评测 指标 

与 之 前 的 工作 类 似 , 在 本 章 中 , NYT 数据 集 被 用 来 比较 层次 注意 力 模型 及 其 他 主流 
的 抽取 模型 。 考 虑 到 使 用 的 数据 集 与 评测 方式 已 在 前 文 涉 及 , 所 以 在 此 跳 过 实验 数据 与 
评测 方式 的 介绍 。 

2. 实验 设置 

为 了 公平 地 比较 层次 注意 力 模型 与 其 他 基线 模型 , 实验 部 分 在 大 多 数 实 验 参数 设置 
上 参照 了 Lin 等 人 [114 HRE. 模型 超 参数 设置 如 表 3.4 所 示 。 


表 3.4 ”模型 超 参数 设置 


卷 积 窗口 大 小 3 
句子 表示 维度 230 
词 问 量 维度 50 
位 置 问 量 维度 5 
训练 批 次 大 小 160 

学 习 率 0.2 


3. 关系 层次 注意 力 机 制 的 有 效 性 验证 


为 了 评测 本 章 介绍 的 层次 注意 力 模 型 , 实验 部 分 比较 了 层次 注意 力 模 型 和 各 种 现 有 
关系 抽取 模型 的 精度 -召回 率 曲 线 。 评 测 结 果 如 图 3.6 所 示 。 实 验 汇 报 了 CNN 和 PCNN 
两 种 神经 网 络 染 构 在 不 同 注意 力 方法 下 的 结果 , 包括 : +HATT 是 本 章 介 绍 的 层次 注意 力 
方法 ; +ATT H 是 普通 的 实例 间 选 择 性 注意 力 模型 ; +ATT+ADV 1199) 是 通过 对 实例 赂 
入 加 入 微小 对 抗 扰动 进行 去 噪 的 注意 力 模 型 ; +ATT+SL H 是 使 用 软 类 标 方法 减弱 错 
误 标 注 问题 的 注意 力 模型 。+ONE P 是 没有 注意 力 机 制 的 普通 多 实例 学 习 模 型 。 实 验 
也 将 层次 注意 力 模型 同 基 于 特征 的 传统 模型 进行 了 比较 , 包括 Mintz 34. MultiR 82) 和 
MIML [82], 

从 结果 中 , 我 们 发 现 : 

(1) 所 有 方法 在 召回 率 小 于 0.05 时 均 得 到 了 不 销 的 精度 。 当 召回 率 逐 渐 增 大 时 , 基 
于 特征 方法 的 模型 精度 的 降低 速度 远大 于 神经 模型 。 这 表明 人 工 设计 的 特征 与 神经 模型 
相 比 具有 较 大 的 局 限 性 ,特别 是 在 具有 了 噪声 的 环境 中 。 因 此 ,为 简洁 起 见 , 我 们 在 接 下 
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来 的 实验 中 仅 主 要 展示 层次 注意 力 模型 和 其 他 基于 注意 力 的 神经 模型 的 结 采 对 比 。 


1.0 | Lop 一 PCNRHHATT 
0.9 0.9 —= PCNN+ATT 
0.8 0.8 
jin 0.7 HE 0.7 
= 0.6 SE 0.6 f 
0.5 0.5 
0.4 0.4 
0-3000 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.39) 00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 
召回 率 召回 率 
(a) 关系 层次 注意 力 机 制 与 各 基线 模型 的 (b) 关系 层次 注意 力 机 制 与 其 他 注意 力 模型 的 
精度 一 召回 率 曲 线 对 比 精度 一 召回 率 曲 线 对 比 


图 3.6 ”评测 结果 


(2) CNN 模型 和 PCNN 模型 均 在 配合 注意 力 机 制 时 效果 更 佳 。 尽 管 相 比 于 非 神 经 
模型 ， 无 注意 力 的 神经 模型 在 关系 分 类 任务 上 已 有 很 强 的 表现 ,但 它 仍然 容易 受到 噪声 
数据 的 影 啊 。 而 基于 注意 力 的 神经 模型 在 多 个 实例 间 使 用 注意 力 机 制 动 态 降低 噪声 实例 
的 影响 , 能 够 有 效 地 提升 天 系 抽 取 的 表现 ， 从 而 在 实验 中 得 到 最 佳 的 结果 。 

(3) 如 图 3.6 所 示 ， 基 于 层次 注意 力 机 制 的 模型 在 所 有 注意 力 机 制 模型 中 取得 了 
最 好 的 效果 。 即 使 同 PCNN+ATT+ADV 和 PCNN+ATT+SL 这 种 采用 复杂 去 噪 机 制 和 
外 部 信息 的 模型 相 比 ， 层次 注意 力 模 型 仍然 具有 显著 的 优势 。 这 表明 ， 同 传统 的 将 每 类 
关系 孤 立 考虑 的 普通 注意 力 机 制 相 比 , 层次 注意 力 机制 能 够 更 好 地 利用 关系 间 丰 定 的 联 
系 ， 从 而 提升 抽取 系统 的 整体 效果 。 但 层次 信息 与 这 些 复杂 的 降 噪 机制 并 不 冲突 。 通 过 
采用 诸如 对 抗 训练 、 增 强 学 习 和 软 类 标的 额外 降 噪 机制， 层次 注意 力 机 制 的 表现 应 当 能 
够 得 到 进一步 的 提升 。 


4. 不 同 关 系 上 层次 注意 力 机 制 的 效果 


为 进一步 验证 关系 层次 注意 力 机 制 对 不 同 关 系 的 有 效 性 , 实验 评测 了 关系 层次 注意 
力 机 制 和 传统 注意 力 机 制 在 关系 抽取 上 的 表现 。 由 于 我 们 更 关注 预测 得 分 最 高 的 预测 结 
果 是 否 准确 ,实验 汇报 了 召回 率 为 0.1、0.2、0.3 时 的 精度 及 其 平均 值 ， 同 时 汇报 了 微 平 
均值 和 宏 平 均值 ， 如 表 3.5 所 示 。 作 为 精度 -召回 率 曲 线 下 面积 的 近似 , 微 平均 值 为 模型 
的 效果 进行 了 更 加 全 面 的 评估 。 考 虑 到 微 平 均值 通常 忽视 了 长 尾 关 系 的 影响 ,实验 也 使 
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用 宏 平 均值 来 给 测试 集中 长 尾 关 系 更 多 的 重视 ,这 是 先前 的 工作 中 往往 被 忽略 的 。 


表 3.5 ”和 名 注意 力 模 型 在 不 同 召 回 率 上 的 精度 


模型 方法 
+ATT 
CNN 
+HATT 
+ATT 
PCNN 
+HATT 
模型 方法 
+ATT 
CNN 
+HATT 
+ATT 
PCNN 
+HATT 


MERR, 我 们 观察 到 : 


0.1 
67.5 
78.9 
69.4 
80.6 


平均 值 


55.4 
69.1 
60.5 
70.3 


0.2 
52.8 
69.9 
60.6 
69.5 


微 平 均值 


31.8 
41.7 
38.0 
42.3 


0.3 
58.5 
58.5 
51.6 
60.7 


宏 平 均值 


8.2 
16.5 
15.1 
17.0 


(7%) 


层次 注意 力 机 制 相 比 于 普通 注意 力 方 法 始终 具有 更 优 的 表现 。 从 精度 的 微 平 均值 和 
宏 平均 值 中 , 我 们 发 现 层次 模型 对 长 尾 关 系 尤其 有 效 。 为 进一步 展示 在 引入 关系 层次 后 
长 尾 关 系 抽取 效果 的 变化 , 实验 从 测试 集中 抽取 了 一 个 子 集 ， 这 个 子 集中 的 关系 均 仅 有 
少 于 100/200 个 训练 样 例 。 具体 来 说 , 实验 用 K 命中 率 (hitsQK ) 指标 进行 性 能 评测 , 对 
于 每 个 实体 对 , 评测 过 程 要 求 其 对 应 的 正确 关系 出 现在 模型 推荐 的 前 K 个 候选 关系 中 。 
由 于 抽取 长 尾 关 系 对 于 现 有 模型 来 说 较为 困难 , 实验 从 {10,15,20} 中 选取 天 。 长 尾 关 系 


上 的 各 模型 效果 对 比如 表 3.6 所 示 。 


表 3.6 ”长 尾 关 系 上 的 各 模型 效果 对 比 


训练 实例 数量 
K 命中 率 ( 微 平均 ) 

+ATT 

CNN 
+HATT 
+ATT 

PCNN 
+HATT 31.6 


训练 实例 数量 
K 命中 率 CCEFI) 


+ATT 
CNN 
+HATT 
+ATT 
PCNN 
+HATT 29.6 


<100 
15 
<5.0 
36.8 
10.5 
52.6 


<100 
15 
<o.0 
31.5 
7.4 
51.9 


20 
21.1 
52.6 
47.4 
63.2 


20 
18.5 
57.4 
40.7 
61.1 


20 
50.0 
70.0 
66.7 
76.7 


20 
33.9 
65.1 
91.9 
68.2 


(7%) 
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从 表 3.6 所 示 的 评测 结 采 中 , 我 们 观察 到 : 

(1) 对 于 CNN All PONN 模型 , 层次 注意 力 模 型 取得 了 较 普 通 注 意 力 模 型 更 好 的 结 
果 。 通 过 利用 关系 层次 ,层次 注意 力 模型 可 以 从 关系 的 关联 中 获取 信息 来 帮助 抽取 长 尾 
关系 。 即 使 是 相对 人 简单 的 CNN, 在 使 用 了 层次 注意 力 机 制 后 , 也 取得 了 优 于 PCNN 模型 
的 效果 。 这 能 很 好 地 证 明基 系 层 次 注意 力 机 制 的 效果 。 

(2) 相 较 于 普通 注意 力 模型 , HATT 已 经 在 长 尾 关 系 上 取得 了 明显 的 进步 。 但 是 , 所 
有 方法 在 长 尾 和 天 系 上 展示 出 的 结果 仍然 难以 令 人 满意 。 这 表明 基于 远程 监督 的 关系 抽取 
模型 除了 存在 错误 标注 问题 外 ,还 存在 看 长 尾 关 系 问题 。 这 局 示 我 们 在 未 来 应 当 在 此 方 
面 进 行 更 加 深入 的 研究 与 投入 。 


3.4.3 Wa 


在 本 节 中 ,我 们 利用 关系 的 层次 结构 ,提出 了 一 个 崭新 的 用 于 关系 抽取 的 关系 层次 
注意 力 模型 。 相 较 于 先前 的 注意 力 模型 ， 层 次 注意 力 模型 能 够 充分 考虑 关系 之 间 的 相互 
联系 ， 提 供 不 同 粒度 的 实例 选择 能 力 ， 并 在 长 尾 关 系 上 有 更 优 的 表现 。 实 验 表明 ,通过 
在 注意 力 机 制 中 引入 关系 内 在 的 层次 化 结构 , 模型 能 够 获得 显著 的 提升 效果 。 


3.5 ”基于 选择 性 注意 力 机 制 的 多 语言 天 系 抽 取 


前 文 介绍 的 天 系 抽取 系统 主要 关注 于 从 单 语 言 数据 中 抽取 世界 知识 。 但 实际 上 ， 人 
们 会 使 用 各 式 各 样 的 语言 来 描述 世界 知识 。 另 外 , 由 于 人 类 在 经 验 总 结 与 认 知 系统 上 的 
相似 性 , 不 同 语言 之 间 也 共享 着 一些 知识 。 例如, 尽管 纽约 和 美国 在 英语 中 分 别 叫做 New 
York 和 United States, 但 是 中 国人 与 美国 人 都 认同 一 个 事实 :“ 纽 约 是 美国 的 一 个 城市 。” 
这 一 事实 在 中 文 世 界 与 英文 世界 中 均 会 存在 , 这 局 发 我 们 去 利用 多 语言 信息 来 进行 更 大 
范围 上 的 关系 抽取 。 

考虑 到 简单 地 为 每 一 种 语言 构建 单 语言 关系 抽取 系统 难以 充分 利用 隐藏 在 各 种 语言 
数据 中 的 多 样 信息 ， 因 而 ,如 图 3.7 所 示 ， 本 章 介绍 一 种 基于 选择 性 注意 力 机 制 的 多 语 
言 天 系 抽取 模型 一 MNRE。 在 单 语言 上 ,该 模型 采用 了 与 传统 注意 力 模 型 相似 的 单 语 
言 注 意 力 机 制 来 筛选 每 种 语言 内 部 信息 丰富 的 实例 。 在 路 语言 上 ， 该 模型 能 够 充分 考虑 
多 语言 环境 下 的 信息 一 致 性 与 互补 性 , 并 相应 地 采用 跨 语 言 注 意 力 机 制 以 进一步 利用 全 
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局 的 多 语言 实例 来 进行 多 语言 关系 抽取 。 


输出 向 量 
单 语言 注意 力 以 及 4 
多 语言 注意 力 ee i = 
ATT | \ ,NNTT 
关系 向 量 (全 SY TV NN 
英文 Dr -0 s 中 文 
aA [iu] Si.) Sd Si 30 Sd Sihi 


EN 中 文 


图 3.7 基于 选择 性 注意 力 机 制 的 多 语言 关系 抽取 模型 


3.5.1 ”算法 模型 


提出 MNRE 的 关键 动机 是 每 个 关系 在 不 同 的 语言 中 有 看 基本 一 致 的 语言 模式 ， 从 
而 MNRE 可 以 利用 语言 间 关 系 模 式 的 一 至 性 和 互相 性 来 获得 更 好 的 关系 抽取 结 朱 。 

形式 化 地 , 给 定 一 个 实体 对 , 它们 在 m 种 不 同 语言 中 包含 该 实体 对 的 句子 被 定义 为 
S(h,t) 一 {Sin 2): A Sho” 其 中 Shey = liy a 对 应 于 第 J 种 语言 中 的 lj a 
实例 集合 。 本 章 介绍 的 模型 将 利用 Sno 中 各 闫 语言 场景 下 的 实例 来 预测 (h,t) 与 每 个 
关系 re 尽 形成 世界 知识 的 概率 。 整体 模型 主要 分 为 以 下 两 个 部 分 。 

© 旬 子 编码 器 ”对 于 一 个 语句 实例 和 两 个 目标 实体 , 采用 神经 网 络 来 将 实例 中 的 语 
诗 模 式 编码 为 一 个 分 布 式 表示 。 由 于 本 部 分 模型 同样 杀 用 CNN/PCNN 作为 句子 
编码 器 ,因此 , 在 本 节 中 , 我 们 依然 不 对 其 进行 过 多 描述 。 
多 语言 注意 力 ”将 各 种 语言 中 的 句子 编码 成 回 量 表示 后 , 多 语言 注意 力 采 用 单 语 
言 与 路 语言 两 部 分 注意 力 机 人 制 来 捕捉 那些 能 够 准确 描述 关系 模式 的 实例 。 其 中 ， 
单 语言 注意 力 机 制 负责 捕捉 单 语 言 世界 中 的 局 部 信息 , 而 路 语言 注意 力 机 制 负责 
捕捉 多 语言 世界 中 的 全 局 信息 。 两 者 结合 汇总 而 成 的 综合 信息 将 被 用 来 进行 天 系 
抽取 。 我 们 在 后 文中 将 详细 介绍 这 两 部 分 注意 力 机 制 。 


1. 多 语言 注意 力 
为 了 充分 利用 各 种 语言 的 实例 信息 ,多 语言 注意 力 采 用 了 两 种 注意 力 机 制 以 进行 多 
语言 关系 抽取 , 包括 : @ 在 一 种 语言 中 选择 信息 丰富 句子 的 单 语 言 注 意 力 机 制 ; @ 评 估 
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语言 间 模 式 一 致 性 的 路 语言 注意 力 机 人 制 。 

1) 单 语言 注意 力 机 制 

为 了 在 单一 语言 内 部 解决 远程 监督 中 的 错误 标注 问题 , MNRE 按照 Lin A [14] 采 
用 的 句子 级 别 选择 性 注意 力 机 制 思 想 , 为 MNRE 设置 了 单 语言 注意 力 机 制 。 直 观 而 言 ， 
每 种 人 类 语言 都 有 其 自身 的 特点 , 因此, MNRE 考虑 语言 各 自 的 特性 , 采用 不 同 的 单 语 
言 注 意 力 机 制 来 减弱 每 种 语言 中 那些 信息 不 丰富 的 实例 对 整体 抽取 的 影响 。 更 具体 地 来 
说 , 对 第 j 种 语言 及 对 应 的 菜 实体 对 实例 集合 Sl, > 为 了 关系 预测 , MNRE 需要 将 所 有 
实例 向 量 加 和 到 一 个 实 值 向 量 "和 Pe BRA rt, 由 实例 向 量 st) 的 加 权 求 和 
计算 得 到 ， 即 

Th) = 2 ah (3.20) 


其 中 , of 是 每 一 个 实例 向 量 oi!) ERIE, 定义 为 


oi = Ple) , 
= Fone (3.21) 
k 


HP, ef 是 句子 si) 反映 标注 关系 r 的 能 力 评 分 。 在 实际 操作 中 ， 有 许多 种 方式 可 以 
获得 el, 在 这 里 MNRE 简单 地 用 内 积 来 计算 ， 即 


oj = sii -q! (3.22) 


其 中 , qi 是 关系 7 在 第 j 种 语言 中 的 注意 力 查询 向 量 。 

2) 跨 语言 注意 力 机 制 

除了 单 语言 注意 力 机 制 外 , MNRE 还 为 神经 关系 抽取 提出 了 器 语言 注意 力 机 制 ， 以 
便 更 好 地 利用 多 语言 数据 。 跨 语言 注意 力 机 制 的 关键 思想 是 捕捉 在 不 同 语言 之 间 具 有 较 
强 一 致 性 的 实例 。 在 单 语 注意 力 机 制 的 基础 上 , 跨 语 言 注意 力 机 制 可 以 进一步 利用 语言 
间 关 系 模式 的 一 致 性 来 有 效 吻 除 与 关系 相关 性 较 低 的 实例 , 集中 于 信息 丰富 的 实例 。 同 
时 , 多 语言 的 丰富 数据 可 以 帮助 减缓 长 尾数 据 带 来 的 负面 影响 。 

跨 语 言 注 意 力 机 制 的 工作 方式 类 似 于 单 语 言 注意 力 机 制 。 设 ; 表示 某 一 种 语言 , 
是 另 一 种 语言 (k 六 j)。 形式 化 地 , 跨 语 言 表示 rl) 被 定义 为 在 第 j 种 语言 的 句子 s ， 
上 的 加 权 和 ， 即 

rikt) = De Siht) (3.28) 
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Ep, of 是 每 一 个 实例 向 量 si， 相对 于 第 k 种 语言 的 跨 语 言 注意 力 分 数 。ai* 定 
义 为 


| ik 
hk — explei ) (3.24) 
= Pew 
L 


其 中 , ej* 表示 第 j 种 语言 句子 hi, G38 k 种 语言 的 关系 模式 的 一 致 性 程度 评分 。 与 音 
语言 注意 力 机 制 类 似 , MNRE 有 如 下 公式 计算 ez 


eg Sire) . q” (3.25) 


其 中 , qt 是 关系 + 在 第 种 语言 中 的 注意 力 查询 向 量 。 为 了 方便 及 统一 公式 , 在 下 文中 
MNRE 将 单 语言 注意 力 向 量 ri, p WE ri2,， 以 此 统一 单 语言 注意 力 机 制 与 跨 语 言 注意 
力 机 制 的 形式 。 


2. 概率 预测 

对 于 每 一 个 实体 对 与 它们 的 对 应 m 种 语言 的 句子 集合 ，MNRE 可 以 从 含有 多 语言 
注意 力 机 制 的 神经 网 络 中 得 到 m x m SAB, BM Say = {Stee , SR oy} 获得 
(rik ljk € {1,… ,m}}。 那些 ; = 的 向 量 是 单 语 言 注意 力 获 得 的 向 量 , 而 那些 5 k 
的 向 量 则 是 跨 语 言 注意 力 获 得 的 向 量 。 

MNRE 将 所 有 向 量 {r} y) 放 在 一 起 , 并 如 下 定义 全 局 分 数 函 数 f (Sc),7): 

F(Sayr)= >》 logP(riri p0) (3.26) 
j,kE{1,--- ,mm } 

SoH, Pirri 0) 是 由 riy 预测 r 的 条 件 概率 , 通过 一 个 Softmax 层 如 下 计算 : 


7 k 
P(r|rih 4,9) = Softmax(M ri, + d) (3.27) 


其 中 , d 是 一 个 偏 置 癌 量 ，WM 是 一 个 随机 初始 化 的 全 局 关系 矩阵 。 
为 了 更 好 地 考虑 语言 的 特殊 性 , MNRE 进一步 引入 R 作为 第 k 种 语言 的 特有 关系 
和 矩阵。 这 里 MNRE 简单 地 定义 Re 为 由 式 (3.25) 中 gx 组 成 的 矩阵 。 因此, 式 (3.27) 可 
PE 0) = Softmax( (Rg + M)r? ri 1) +d) (3.28) 
其 中 ，M 编码 了 预测 关系 的 全 局 模式 , 而 Re 编码 了 那些 语言 独 有 的 特性 。 注意, 在 训 
ABB, ri 以 式 3.20 和 式 3.23 构造 , 采用 标注 的 关系 。 在 测试 阶段 , 由 于 不 能 提前 得 


#38 ”世界 知识 的 自动 获取 | 93 


MRR, MNRE 将 为 每 一 个 可 能 的 关系 r 都 构建 一 个 不 同 的 向 量 "和 通过 (sw 
进行 关系 预测 。 


3.5.2 ”实验 分 析 
1. 数据 集 和 评价 指标 
实验 部 分 构建 了 一 个 新 的 多 语言 关系 抽取 数据 集 来 评估 MNRE 模型 。 在 实验 中 , 模 


型 主要 在 英汉 两 种 语言 中 进行 多 语言 的 关系 抽取 。 在 此 数据 集中 , 中文 实例 通过 对 齐 中 
文 百度 百科 与 Wikidata 中 的 实体 生成 ， 而 英文 实例 通过 对 齐 英 文 维基 百科 与 Wikidata 


中 的 实体 生成 。 整 个 数据 集合 共 包 含 176 种 关系 , 包括 一 种 特殊 的 关系 NA (表示 实 
体 之 间 没 有 关系 )。 数 据 集 的 统计 信息 如 表 3.7 所 示 。 
表 3.7 数据 集 的 统计 信息 
数据 集 关系 实例 事实 
训练 1 022 239 47 638 
英文 验证 176 80 191 2 192 
测试 162 018 4 326 
训练 940 595 42 536 
中 文 验证 176 82 699 2 192 
测试 167 224 4 326 


2. 实验 设置 


实验 部 分 通过 在 验证 集 上 进行 参数 搜索 来 调整 MNRE 的 模型 参数 。 最 好 的 模型 通 
过 在 验证 集 上 按照 评估 结果 得 到 。 模 型 超 参数 设置 如 表 3.8 所 示 。 


表 3.8 ”模型 超 参数 设置 


超 参 数 数值 
卷 积 窗口 大 小 3 
句子 表示 维度 230 
词 癌 量 维度 50 
位 置 向 量 维度 5 
训练 批 次 大 小 160 


学 习 率 0.001 
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3. 语言 一 致 性 验证 


为 了 验证 不 同 语言 之 间 的 关系 模式 具有 一 致 性 ， 且 对 关系 抽取 具有 促进 作用 ， 实验 
将 MNRE 与 仅 使 用 英语 数据 训练 的 模型 (PCNN-EN, CNN-EN), 仅 使 用 中 文 数据 训练 的 
模型 (PCNN-ZH、CNN-ZH) 进行 了 对 比 。 同时, 实验 部 分 实现 了 一 些 简易 形式 的 多 语言 
关系 抽取 模型 来 进行 对 比 , 包括 一 个 使 用 PCNN-EN 和 PCNN-ZH 进行 联合 预测 的 联合 
模型 (PCNN+joint) 以 及 一 个 用 公共 的 关系 姐 入 窍 阵 训练 的 联合 模型 (PCNN+share). E 
述 的 实验 设 定 也 在 CNN 上 进行 , BY CNN-+joint 与 CNN+share。 各 模型 精度 -召回 率 曲 线 
如 图 3.8 所 示 。 


ri | 一 RAS : : \ ~*~ PONN-ZH | 
Lhe 7 : : : NN- p Er —— PCNN-EN 


0.9 ae i joint sal WE —*— PCNN-+ joint 
过 W : n e ANG | —— PCNN+Share 
0.8 aaa = aia | “ac ae a. x —*— MNRE (PCNN) 
Hy 0.7 
oa 
0.6 
0.9F- 
0.4F- 
0.3 j 本 1 L i Ss 0.3L L 5 i i f i 3 The J 
0 0.05 0.1 0.15 0.2 0.25 0.3 0.385 0.4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 
召回 率 A E 
(a) CNN-EN, CNN-ZH. CNN-+joint. CNN-+share (b) PCNN-EN, PCNN-ZH. ECNN+joint、 
和 MNRE(CNN) 的 精度 -召回 率 曲线 PCNN-+share#l MNRE(PCNN) 的 精度 -召回 率 曲线 


图 3.8 各 模型 精度 -召回 率 曲 线 


从 图 3.8 中 , 我 们 得 到 了 以 下 观察 结果 。 

(1) PCNN+joint 和 PCNN-+share 都 在 与 PCNN-EN 和 PCNN-ZH 的 对 比 中 取得 了 
更 好 的 效 末 。 这 表明 从 多 种 语言 信息 中 共同 发 现 的 关系 事实 更 加 可 车 ,也 意味 看 联合 利 
用 中 英文 句子 有 利于 更 好 地 提取 新 的 关系 事实 。 

(2) CNN+share 与 CNN+joint 相 比 仅仅 取得 了 相似 的 表现 ， 甚 至 在 召回 率 在 0.1 ~ 
0.2 ZEF, CNN+share 表现 更 差 。 此 外 ,， 从 总 体 上 看 ，PCNN-+share 与 PCNN+joint 相 
比 几 乎 在 整个 召回 率 范 围 中 都 表现 更 差 。 这 表明 , 通过 共享 关系 奶 入 矩阵 的 简单 组 合 方 
法 并 不 能 进一步 捕捉 各 种 语言 之 间 的 隐 式 相关 性 。 

(3) 在 与 包括 PCNN+joint 和 PCNN-+share 在 内 的 其 他 方法 的 对 比 中 , MNRE 模型 
在 整个 召回 率 范 围 中 都 取得 了 最 高 的 精度 。 即 使 通过 对 这 些 基 线 模型 进行 参数 搜索 , 我 
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们 可 以 观察 到 PCNN+joint 和 PCNN+share 都 不 能 获得 与 MNRE 相 比 有 竞争 力 的 结果 ， 
甚至 在 增加 了 输出 层 的 大 小 后 也 是 如 此 。 这 表明 简单 地 增加 模型 大 小 并 不 能 够 捕获 更 多 
有 用 的 信息 。 相 反 ,MNRE 模型 可 以 成 功 地 通过 考虑 不 同 语言 间 的 关系 模式 一 致 性 来 提 
高 多 语言 天 系 抽取 的 表现 。 

我 们 更 进一步 地 在 表 3.9 中 给 出 了 一 个 关于 跨 语 言 注意 力 机 制 的 例子 。 它 展示 了 
MNRE 训练 后 关系 出 生地 的 实例 集合 中 ， 中 对 英 与 英 对 中 注意 力 权重 最 高 和 最 低 的 4 
个 实例 。 这 里 用 粗 体 突出 了 实体 对 。 为 了 做 对 比 ， 我 们 同时 展示 它们 在 CNN+ZH 和 
CNN+EN 模型 中 的 注意 力 分 数 。 从 表 3.9 中 ， 我 们 可 以 发 现 ， 这 4 个 句子 都 表达 出 
了 巴尔 资 出 生 在 法 国 的 事实 。 第 一 个 句子 和 第 三 个 句子 显然 包含 了 更 多 的 可 能 迷惑 关 
系 抽取 系统 的 噪声 信息 。 由 于 采用 跨 语言 注意 力 机 制 考虑 了 两 种 语言 间 句 子 的 结构 一 致 
HE, MNRE 可 以 凭借 比 CNN+ZH 和 CNN+EN 更 高 的 注意 力 分 数 识别 出 第 二 个 句子 和 
第 四 个 句子 , 并 更 清晰 地 表达 关系 出 生地 。 


表 3.9 多 语言 注意 力 机 制 的 一 个 例子 
CNN+ZH CNN+EN MNRE 实例 
-一 [i 1K 1. Barzun is a commune in the Pyrénées-Atlantiques de- 


partment in the Nouvelle-Aquitaine region of south-western 


France 

— 中 高 2. Barzun was born in Créteil, France 

中 一 低 3. 作为 从 法 国 移民 到 美国 来 的 顶尖 知识 分 子 ， 巴 尔 赞 与 莱 昂 内 
尔 。 特 里 林 、 德 怀特 。 麦克 唐 纳 等 人 一 道 ， 在 “冷战 ”时 期 积极 
参与 美国 的 公共 知识 生活 .………… (As a top intellectual immi- 


grating from France to the United States, Barzun, together 
with Lionel Trilling and Dwight Macdonald, actively partici- 
pated in public knowledge life in the United States during the 
cold war ...) 

a z 高 4. 巴 尔 赞 于 1907 年 出 生 于 法 国 一 个 知识 分 子 家 庭 ，1920 年 赴 
x. (Barzun was born in a French intellectual family in 1907 


and went to America in 1920.) 


HE: 低 、 中 、 融 表示 注意 力 权重 。 


4. 语言 互补 性 验证 
为 了 验证 语言 之 间 关 系 模式 的 互补 性 ， 实验 比较 了 下 列 方法 : CNN-EN、CNN-ZH、 
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PCNN-EN、PCNN-ZH, 以 及 多 语言 训练 后 仅仅 使 用 单 语 问 量 来 预测 关系 的 模型 MNRE- 
EN 和 MNRE-ZH。 图 3.9 展示 了 CNN 和 PCNN 均 包 含 在 内 的 4 种 模型 的 精度 -召回 率 


曲线 。 
1 
0.9 | | —*— MNRE (CNN) ZH | | —*— MNRE (PCNN)-ZH 
: —S— MNRE (CNN}-EN : |—8— MNRE (PCNN)}-EN 
te 0.7 
= 
0.6 


0300.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 030.05 0.1 0.15 02 0.25 03 0.35 0.4 
召回 率 召回 率 
(a) CNN-EN, CNN-ZH, MNRE(CNN)-EN (b) PCNN-EN, PCNN-ZH, MNRE(PCNN)-EN 
和 MNRE(CNN)-ZH 的 精度 -召回 率 曲 线 和 MNRE(PCNN)-ZH 的 精度 -召回 率 曲线 


图 3.9 各 模型 的 精度 -召回 率 曲线 


从 图 3.9 中 , 我 们 可 以 发 现 : 

(1) MNRE-EN 和 MNRE-ZH 几乎 在 整个 召回 率 范 围 内 都 优 于 CNN-EN、CNN-ZH、 
PCNN-EN 及 PCNN-ZH。 这 说 明 通 过 带 有 多 语言 注意 力 机 制 的 联合 训练 , 中 英文 关系 抽 
取 器 都 能 够 受益 于 来 目 另 一 个 语言 的 语义 信息 。 

(2) 尽管 PCNN-EN KRME F PCNN-ZH，CNN-EN 的 表现 劣 于 CNN-ZH, 借助 于 
带 有 多 语言 注意 力 机 制 的 联合 训练 , MNRE-EN 的 表现 与 MNRE-ZH 相近 。 这 说 明 通 过 
多 语言 注意 力 框 架 , 中 英文 的 关系 抽取 器 都 可 以 充分 利用 两 种 语言 的 文本 来 提升 单 语 言 
模型 的 效果 。 

表 3.10 展示 了 对 于 某 些 中 英文 训练 样 例 数 不 平 衡 的 关系 的 详细 结果 ， 从 表 3.10 中 ， 
我 们 可 以 看 出 : 

(1) 对 于 关系 包含 来 说 ， 喘 文 训 练 样 例 数 仅仅 是 中 文 的 1/7。 由 于 缺乏 训练 数据 ， 
CNN-EN 与 CNN-ZH 相 比 获得 了 相差 很 多 的 结果 。 然而 , 通过 多 语言 注意 力 机 制 的 联合 
训练 , MNRE-EN 与 MNRE-ZH 结果 就 较为 相近 ， 且 均 有 提升 。 

(2) 对 于 关系 总 部 所 在 地 ， 中 文 训 练 样 例 数 仅仅 是 类 文 的 1/9, CNN-ZH 甚至 预测 
不 出 任何 正确 的 结果 。 原 因 在 于 其 仅仅 有 210 个 训练 样 例 ，CNN-ZH 没有 得 到 充分 的 训 
练 。 然 而 ,通过 多 语言 注意 力 机 制 的 联合 训练 , MNRE-EN 和 MNRE-ZH 都 能 得 到 理想 
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(3) 对 于 中 英文 句子 数 较 为 平衡 的 关系 父亲 和 国籍 ，MNRE 模型 仍然 可 以 对 中 英 
文 关 系 抽取 的 表现 提升 产生 作用 。 


表 3.10 ”对 一 些 特定 的 关系 的 预测 准确 率 (%) 
KA 英文 实例 数 中 文 实例 数 CNN-EN CNN-ZH MNRE-EN MNRE-ZH 
包含 993 6 984 17.95 69.87 73.72 75.00 
总 部 所 在 地 1 949 210 43.04 0.00 41.77 50.63 
父亲 1 833 983 64.71 77.12 86.27 83.01 
BEG 25 322 15 805 95.22 93.23 98.41 98.21 


5. 关系 矩阵 的 对 比 

对 于 关系 预测 ， 我 们 采用 了 两 种 关系 和 矩阵， 包括 全 局 矩阵 M (考虑 关系 的 全 局 一 
致 性 ) 和 语言 特有 矩阵 R (考虑 关系 在 每 种 语言 上 的 特性 )。 为 了 验证 这 两 种 关系 和 矩阵 
的 效果 ， 实 验 采 用 了 两 种 关系 矩阵 的 MNRE、 仅 采用 M 的 (MNRE-M) RRA RY 
(MNRE-R) 来 进行 对 比 。 每 种 方法 的 精度 -召回 率 曲 线 如 图 3.10 所 示 。 

从 图 3.10 中 , 我 们 可 以 观察 到 : 


一 一 MNRE (CNN)-R | 
—e— MNRE (CNN)-M 


| — I 3 
—— MNRE (PCNN)-R | 
—©— MNRE (PCNN)-M 

( 


CNN PCNN) 


i 3 í 1 03 i 1 i : 4 i : 
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 


召回 率 召回 率 
(a) MNRE(CNN)-M, MNRE(CNN)-R (b) MNRE(PCNN)-M, MNRE(PCNN)-R 
和 MNRE 的 精度 -召回 率 曲线 和 MNRE(PCNN) 的 精度 -召回 率 曲线 


图 3.10 ”每 种 方法 的 精度 -召回 率 曲线 
(1) MNRE-M 的 表现 与 MNRE-R 和 MNRE 相 比 相差 很 多 。 这 说 明 多 语言 关系 抽取 
中 不 能 只 用 全 局 关系 矩阵 进行 关系 预测 。 究 其 原因 ， 是 因为 每 种 语言 都 有 其 特有 的 表达 
关系 模式 的 特点 ,这 很 难 整合 到 一 个 单一 的 关系 矩阵 中 。 
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(2) 当 召 回 率 较 低 时 ，MNRE-R 与 MNRE 有 相似 的 表现 。 然 而 在 召回 率 到 达 0.25 
时 MNRE-R 急剧 下 降 。 这 表明 语言 之 间 的 关系 模式 也 存在 全 局 一 致 性 , 这 也 是 不 可 忽视 
的 。 因此, 我 们 应 当 在 多 语言 关系 抽取 上 联合 使 用 M 和 R 来 综合 考虑 语言 的 共性 与 特 
性 ,就 像 MNRE 框架 中 提出 的 一 样 , 才能 取得 稳定 的 提升 效果 。 


3.5.3 ”小结 


在 本 节 中 , 我 们 介绍 了 一 种 采用 了 多 语言 注意 力 机 制 的 神经 关系 抽取 框架 ,用 以 考 
虑 多 种 语言 之 间 关 系 模式 上 的 一 致 性 和 互补 性 。 我 们 在 多 语言 天 系 抽 取 任 务 上 构建 了 新 
的 数据 集 ,， 并 详细 地 对 我 们 的 框架 进行 了 评 信 ,结果 表明 我 们 的 框 染 可 以 有 效 地 建 模 语 
言 之 间 的 关系 模式 ， 有 效 提升 了 跨 语 言 关 系 抽取 的 结果 。 


3.6 ”引入 对 抗 训练 的 多 语言 天 系 抽 取 


目前 绝 大 多 数 的 关系 抽取 方法 仅仅 关注 在 单 语 言 场景 下 的 关系 抽取 问题 , 即 训练 数 
据 和 应 用 都 只 考虑 仅 有 一 种 语言 的 情况 。 这 头 模 型 忽略 了 不 同 语言 之 间 光 在 的 互补 性 和 
一 致 性 。 在 如 今 的 大 数据 时 代 , 信息 的 来 源 多 种 多 样 ， 从 互联 网 中 得 到 的 每 进行 关系 抽 
取 的 海量 自由 文本 资源 常常 是 多 语言 的 。 现 有 的 针对 单 语言 场景 的 关系 抽取 模型 在 多 语 
言 的 实际 应 用 场景 下 往往 难以 取得 更 好 的 表现 。 因 此 , 设计 一 种 适用 于 多 语言 场景 的 关 
系 抽取 模型 十 分 重要 。 

现 有 的 少数 多 语言 场景 下 的 关系 抽取 模型 采用 了 路 语 言 注意 力 机 制 , 不 能 有 效 地 抽 
取 到 深层 的 各 语言 一 致 的 语义 信息 和 多 样 的 结构 信息 。 近 年 来 发 展 起 来 的 对 抗 训练 机 制 
能 够 有 效 地 增强 模型 对 深层 次 信息 的 抽取 能 力 。 尤 其 是 在 多 语言 中 做 对 抗 ， 能 够 有 效 地 
抽取 到 器 语言 的 信息 , 融合 多 语言 的 语义 空间 ,这 非常 适用 于 多 语言 场景 下 的 天 系 抽取 
任务 。 因 此 , 如何 利 用 先进 的 对 抗 训练 技术 构建 利用 多 语言 信息 的 关系 抽取 模型 是 一 个 
重要 的 诛 题 。 本 下 将 介绍 一 种 引入 对 抗 训练 的 多 语言 关系 抽取 模型 (AMNRE)。 如 图 3.11 
所 示 ， 该 模型 能 够 有 效 地 使 用 对 抗 训练 技术 在 多 语言 环境 下 学 习 单 一 语言 的 独特 性 质 ， 
同时 在 全 局 融合 多 种 语言 的 共同 特性 ,从 而 帮助 抽取 系统 利用 多 语言 语 料 进行 更 高 效 的 
世界 知识 获取 。 
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' 语言 1 独立 语义 空间 !， 统一 语义 空间 i 语言 ?独立 语义 空间 ， 
文本 关系 表示 | ,四 7A F- 
系 表示 ， ri» [© 7 mo |@ ino |® 
l D pl © O 


多 语言 注意 力 机 制 


Tok : 
> 


© 1 
句子 表示 Ole 
句子 编码 器 
输入 表示 


图 3.11 引入 对 抗 训练 的 多 语言 关系 抽取 模型 的 结构 图 


3.6.1 ”算法 模型 


与 MNRE 类 似 , 给 定 一 个 实体 对 , 它们 在 m 种 不 同 语言 中 包含 该 实体 对 的 句子 实 
例 被 定义 为 Say = {5 4),… Shot 其 中 Shy = ho o a) 对 应 于 第 了 种 语言 
中 的 nj 个 实例 集合 , AMNRE 同样 利用 Sa 中 各 类 语 诗 场景 下 的 实例 来 预测 (h,t) 与 
每 个 关系 7 CR 形成 世界 知识 的 概率 。 整 体 模型 包括 如 下 部 分 。 

。 句子 编码 器 模块 ”对 于 输入 的 包含 实体 对 的 语句 实例 , AMNRE 采用 人 神经 网 络 以 

得 到 实例 的 表示 向 量 . AMNRE 分 别 利用 卷 积 神经 网 络 和 循环 神经 网 络 来 实现 句 
子 编码 器 。 此 外 , AMNRE 对 每 种 语言 分 别 使 用 了 编码 独立 信息 与 跨 语 言 信 息 的 
两 个 编码 器 , 显 式 地 分 开 了 这 两 种 信息 的 编码 ,以 达到 更 好 的 效果 。 

。 多 语言 注意 力 机 制 模块 ”由 于 数据 来 源 于 远程 监督 方法 得 到 的 语 料 , AMNRE 仿 
照 前 述 工 作 采 用 了 多 语言 注意 力 机 制 以 捕捉 语 料 中 信息 丰富 的 实例 。 特 别 地 ， 
AMNRE 对 语言 间 一 致 的 语义 空间 和 语言 间 独 立 的 语义 空间 分 别 采 用 了 注意 力 机 
制 。 

。 对 抗 训练 模块 ”在 本 部 分 中 , 我 们 将 来 自 不 同 语言 的 实例 编码 到 了 一 个 统一 的 一 
致 语义 空间 。 我 们 采用 了 对 抗 训练 以 保证 来 目 不 同 语言 的 实例 在 语义 空间 中 的 髓 
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入 得 到 充分 的 混合 ， 以 便 有 效 地 进行 关系 抽取 。 


1. AF oats a5 


对 于 给 定 的 一 个 含有 若干 单词 的 句子 , 输入 层 的 功能 是 将 句子 中 的 所 有 单词 转化 成 
对 应 的 输入 词 向 量 。 对 于 给 定 句 子 中 的 任意 一 个 单词 ， 其 输入 同 量 由 两 个 实 向 量 构 成 ， 
一 个 是 它 的 文本 词 向 量 , 另 一 个 是 它 的 位 置 向 量 。 这 里 , 词 向 量 用 于 刻画 每 个 词 的 语法 
和 语义 信息 ， 采 用 Skip-gram 算法 在 大 规模 文本 语 料 上 提前 训练 获得 ,在 训练 中 也 会 进 
行动 态 调整 。 位 置 向 量 用 于 刻画 实体 的 位 置信 息 ， 定义 为 每 个 单词 和 头 实体 、 尾 实体 之 
间 的 相互 位 置 差 的 同 量 表示 。 最 终 的 输入 词 辣 量 定 义 为 词 同 量 与 位 置 品 量 的 拼接 。 在 输 
入 层 的 基础 上 , 我 们 采用 深度 卷 积 神经 网 络 或 者 循环 神经 网 络 得 到 句子 的 向 量 表示 。 

深度 卷 积 神经 网 络 通过 卷 积 、 池 化 和 非 线性 操作 将 输入 的 词 表示 转化 为 句子 的 回 
量 表示 。 这 部 分 采用 了 CNN, 此 处 不 再 过 多 著述 。 

循环 神经 网 络 (RNN) 主要 为 处 理 序列 数据 而 设计 。 在 本 文中 ,AMNRE 采用 双 问 
的 循环 神经 网 络 Bd 从 两 个 方向 编码 句子 的 语义 信息 : 


和 一 RNN (a4, hi) (3.29) 
— 《一 
h; = RNN; (£i, h i41) (3.30) 


其 中 , hi Mh; 分 别 表 示 前 向 和 后 向 得 到 的 编码 向 量 ，z; 为 输入 序列 的 第 i 个 输入 向 
量 。RNN 表示 一 个 循环 神经 网 络 单元 。 最 终 的 句子 的 表示 向 量 由 前 向 和 后 向 的 向 量 拼接 
而 成 ， 即 

y = [h n; hil (3.31) 


出 于 简化 , 无 论 是 CNN 还 是 RNN, 之 后 的 句子 编码 器 均 定 义 为 
y = E(x) (3.32) 


对 于 每 一 个 句子 shiy e S24,， 我 们 特别 设计 了 编码 语言 独立 信息 与 编码 跨 语 言 综 
合 信息 的 两 个 编码 器 BF 和 E9 来 对 句子 进行 表示 。 


1 ,2 _ TFT I f 2 
{80h 40) Saey i }= E hoh Es hah (3.33) 
{57.43 Ba) oo } = {EF (sty): BF (sth a) i } (3.34) 
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2. 多 语言 注意 力 机 制 

由 于 训练 数据 来 自 于 通过 远程 监督 方法 目 动 生成 的 数据 ，AMNRE 需要 通过 注意 力 
机 制衡 量 每 个 实例 的 信息 丰富 程度 , 以 避免 数据 噪声 问题 的 影响 。 由 于 AMNRE 分 开 编 
码 了 语言 间 一 致 的 信息 和 各 语言 独立 的 信息 ，AMNRE 相应 地 分 别 采 用 不 同 的 注意 力 机 
制 来 解决 该 问题 。 

1) 各 语言 独立 的 注意 力 机 制 

由 于 每 种 语言 都 有 其 独特 的 特性 , 因此 我 们 为 不 同 语言 设 定 了 各 语言 独立 的 注意 力 
机 制 。 在 第 j 个 语言 的 单个 语义 空间 中 , 我 们 为 每 个 关系 "E 尺 分配 一 个 注意 力 查 询问 
量 gle Shy ={Sthay Step} 中 每 个 句子 的 注意 力 得 分 定义 如 下 : 

exp(g7 - si» 


a = pla: She) (3.35) 
o Depla: siin) 
Pdr ` S(h,d) 
k 


注意 力 分 数 可 用 于 计算 各 语言 独立 的 关系 表示 向 量 。 
int) = 2 kS t) ey 
k 
2) 各 语言 间 一 致 的 注意 力 机 制 
除了 各 语言 独立 的 注意 力 机 制 外 ，AMNRE 还 采用 各 语言 间 一 致 的 注意 力 机 制 来 考 
虑 所 有 语言 中 实例 的 共性 。 在 统一 的 语义 空间 中 ，AMNRE 为 每 个 关系 re 尺 分 配 一 个 
关系 查询 向 量 4， 并 且 每 个 实例 的 注意 力 得 分 定义 如 下 : 


exp(g, 3%») 


B= (3.37) 
> > exp(g, ` Eiht) 
[=1 k 
注意 力 分 数 可 用 于 计算 各 语言 间 一 致 的 文本 关系 表示 。 
Fine) = >> ny (3.38) 
[一 1 k 


3. 关系 预测 
由 注意 力 机 制 得 到 的 表示 同 量 用 于 进行 关系 了 预测 。 各 语义 空间 预测 到 的 概率 相 乘 作 
为 最 终 的 概率 ， 公式 如 下 : 


mm 


P(rlS(nt),0) = P(riFn, 9) [[ Pelri 9) (3.39) 


7=1 
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其 中 ， P(r|F(n,t); 9) 5 P(r|r’s, 4:9) 定义 为 
P(r rlF (n, t)» 0) = Softmax( RiF(n, 1) 十 d) (3.40) 
P(r|ri, 199) = Softmax(Ryrt, 1) + dj) (3.41) 
其 中 , RS Rj 分 别 是 语义 统一 空间 与 第 j 类 语言 独立 空间 中 的 关系 矩阵。 
4. 对 抗 训练 模块 
AMNRE 将 各 类 语言 的 实例 编码 到 统一 的 语义 空间 以 捕捉 语言 之 间 的 一 致 性 信息 ， 
但 一 种 可 能 的 情况 是 不 同 语言 的 句子 聚集 在 统一 空间 中 的 不 同位 置 且 线性 可 分 。 在 这 种 
情况 下 ， 模 型 难以 达到 挖掘 不 同 语言 一 致 性 信息 的 目标 。 受 Ganin 等 人 BI 的 启发 ， 
AMNRE 采用 对 抗 训练 来 解决 这 个 问题 。 
在 对 抗 训 练 中 , 一 个 判别 器 被 设计 出 来 用 以 判定 特征 的 语言 归属 。 其 结构 定义 如 下 : 


D(5iy, p) = Softmax(MLP (87); »)) (3.42) 


其 中 , MLP 是 一 个 两 层 的 多 层 感 知 机 模型 。 
SALA asta XT, AMNRE 项 户 不 同 语言 的 句子 编码 融 能 够 生成 让 判别 器 难以 区 分 的 
表示 回 量 。 因 而, 整体 的 对 抗 训练 形式 如 下 : 


- max) X log[D( (Si, ely (3.43) 


j=l i 
其 中 ，[] 表示 辣 量 的 第 ; BE. OG 与 gp 分 别 是 句子 编码 器 ES 与 判别 器 的 参数 。 该 公 
式 意味 看 给 定 任何 语言 的 实例 , 相应 语言 的 句子 编码 郁 生 成 的 句子 癌 量 应 当 能 够 混 消 判 
别 器 。 同 时 ， 判 别 器 需要 尽力 避免 被 编码 器 的 结果 混淆 。 在 充分 训练 之 后 ， 编 码 器 与 判 
别 器 达到 平衡 之 时 , 不 同 语言 包含 相似 语义 信息 的 的 实例 可 以 很 好 地 被 编码 到 空间 中 相 
近 的 位 置 , 做 到 特征 的 融合 。 在 训练 中 , 我 们 优化 了 以 下 损失 函数 来 实现 式 (3.43) W HE 
的 。 


minLe(08)=, J Do 8DE? (sp) (3.44) 


J Si, 中 ET sth yes 


min Leavy 0p)=— > ` > log[D(EY (s7 0))]; (3.45) 


J Sin, 1) © 73 sih, 1 ES? 


其 中 , 万 是 第 7 种 语言 的 所 有 实例 集合 。 


(ht) 


(ht) 
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考虑 到 每 种 语言 独 有 的 语义 特征 可 能 被 错误 地 编码 到 语言 一 致 空间 中 , 并 对 语言 一 
致 空间 中 特征 的 一 致 性 产生 较 大 的 负面 影响 , 受 Bousmalis 等 人 [24 的 启发 , AMNRE 采 
用 正 交 约束 来 缓解 这 个 问题 。 


(3.46) 


gin Cmts) = > HFCs, 
其 中 , I; 和 Ci 是 两 个 特征 窍 阵 ， 其 行 四 量 为 第 7 类 语言 通过 句子 编码 器 EY 和 ES 编 
码 出 的 实例 向 量 。|.|。 是 Frobenius 范 数 。 在 正 交 约束 下 ,BI 和 EF 编码 出 的 语言 特性 
与 语言 共性 特征 将 会 区 分 得 更 加 明显 。 
在 训练 中 ,对 抗 训 练 与 正 交 约束 作为 损失 函数 的 一 部 分 参与 训练 , 整体 的 损失 函数 
如 下 : 
L = Lnre(0) + ALP, (Od) + ALE (0E) + AzLpenalty (Oz) (3.47) 


adv adv 


其 中 , Ar. Ao RAs FAS VARS PB LEB. Lare(O) 是 关系 抽取 模型 的 损失 函数 ， 这 与 
以 往 的 模型 没有 太 大 差别 , 在 此 不 做 过 多 性 述 。 


3.6.2 ”实验 分 析 


1. 数据 集合 与 评估 

实验 部 分 在 Lin 等 人 M 开发 的 多 语言 关系 抽取 数据 集 上 评估 模型 。 考虑 到 使 用 的 
数据 集 已 在 前 文 涉及 ， 所 以 我 们 在 此 跳 过 实验 数据 的 介绍 。 在 实验 中 , 各 个 模型 在 召回 
率 低 于 0.3 部 分 上 的 精度 -召回 率 曲 线 被 用 以 进行 效果 对 比 。 此 外 , 为 了 解 全 局 的 精度 - 召 
回 率 性 能 ， 实 验 部 分 还 报告 了 曲线 下 面积 (AUC) 的 数值 。 

2. 实验 设置 

为 了 公平 地 比较 AMNRE 与 以 往 的 基线 模型 , 实验 部 分 参数 参照 了 Lin 等 人 23 的 
设 定 。 模 型 超 参数 设置 如 表 3.11 所 示 。 

3. 总 体 评估 结果 

为 了 模型 AMNRE-CNN 和 AMNRE-RNN 的 有 效 性 , 我 们 将 所 提出 的 模型 与 各 种 神 
经 方法 进行 比较 : MNRE-CNN 和 MNRE-RNN 是 基于 多 语言 注意 力 机 制 的 关系 抽取 模 
H, 并且 分 别 采 用 了 CNN 和 RNN FAATAA Hl CNN-EN 和 RNN-EN 是 用 英语 
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数据 训练 的 基础 选择 性 注意 力 机 制 模型 ， 这 是 单 语 言 场景 中 较为 强力 的 模型 A, CNN- 
CN 和 RNN-CN 是 用 中 文 数据 训练 的 基础 选择 性 注意 力 机 制 模型 。CNN-joint 和 RNN- 
joint 是 简单 的 联合 模型 , 通过 直接 总 结 严 文 和 中 文 的 关系 抽取 模型 的 预测 分 数 来 预测 关 
系 ; CNN-share 和 RNN-share 是 另 一 种 联合 模型 ， 通 过 共享 关系 磐 入 来 训练 英文 模型 和 
中 文 模型 。 各 类 模型 的 精度 -召回 率 曲线 如 图 3.12 所 示 , 各 个 模型 的 AUC 结果 如 表 3.12 
FIT AR o 


表 3.11 模型 超 参数 设置 


训练 批 次 大 小 160 
学 习 率 0.002 
CNN 的 句子 表示 维度 230 
RNN 的 句子 表示 维度 200 
判别 器 的 隐 层 大 小 2048 
卷 积 窗口 大 小 3 
词 向 量 维度 50 
位 置 问 量 维度 5 
1.0 和 ee 1.0 m 1 
0.95 wm 中 rep Da 
0.8 0.8 
ÈN 
0.7 x 0.7 
0.6 0.6 
0.5 | 0.5 / 
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.00 0.05 0.10 0.15 0.20 0.25 0.30 
召回 率 召回 率 
(a) CNN 作为 句子 编码 兹 的 模型 效果 (b) RNN 作为 句子 编码 器 的 模型 效果 
图 3.12 各 类 模型 的 精度 -召回 率 曲 线 
表 3.12 各 个 模型 的 AUC 结果 (%) 
模型 CNN-EN CNN-CN CNN-joint CNN-share MNRE-CNN AMNRE-CNN 
AUC 36.6 33.2 37.1 37.0 43.4 46.2 
模型 RNN-EN RNN-CN RNN-joint RNN-share MNRE-RNN AMNRE-RNN 


AUC 34.5 34.4 36.5 37.6 44.2 A7.3 
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从 结果 中 , 我 们 不 难 发 现 : 

(1) 对 于 CNN 和 RNN, 联合 使 用 英语 句子 和 汉语 句子 进行 训练 的 模型 优 于 仅 使 用 
单 语言 进行 训练 的 模型 。 这 表明 多 语言 数据 中 丰富 的 信息 十 分 有 效 ,， 可 以 显著 增强 现 有 
的 关系 抽取 模型 效果 。 

(2) -joint 模型 与 -share 模型 取得 了 类 似 的 效果 , 并 且 它 们 的 表现 均 不 及 MNRE 模 
型 和 AMNRE 模型 。 虽 然 这 些 模型 都 受益 于 利用 多 语言 的 丰富 信息 , 但 使 用 多 语言 注意 
力 机 制 的 模型 可 以 更 好 地 利用 多 语言 数据 。 这 表明 ， 有 针对 性 地 设计 方案 来 提取 丰富 的 
多 语言 信息 是 至 关 重 要 的 。 

(3) AMNRE 在 图 3.12 的 整个 召回 玫 围 内 实现 了 最 佳 结果 ， 即 使 与 MNRE 相 比 也 
是 如 此 。AMNRE 的 表现 显著 优 于 MNRE, AUC 结果 增加 了 3% 左右 。 它 表明 我 们 提出 
的 明确 编码 语言 一 致 性 和 语言 独特 信息 的 框架 , 可 以 更 好 地 提取 多 语言 信息 ， 从 而 带 来 
关系 抽取 性 能 的 显著 提高 。 


4. 单 语言 评估 结果 


为 了 进一步 验证 在 本 节 框 架 下 训练 的 抽取 系统 在 单 语言 环境 下 的 效果 , 我 们 将 模型 
在 多 语言 环境 下 进行 训练 , 但 仅仅 使 用 单 语 数据 进行 关系 抽取 。 各 个 模型 在 单 语 言 场景 
下 的 精度 -召回 率 曲 线 如 图 3.13 所 示 ，AUC 结果 如 表 3.13 Ara. 


=j- AMNRE-CNN-EN 一 由 一 AMNRE-RNN-EN 
E 


= MNRE-RNN-EN 


=E- CNN-EN NN-EN 
0.9 f == AEN 
0.8 | 
0.7 
0.6 
0.55 一 | 0.5 — ; i 
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.00 0.05 0.10 0.15 0.20 0.25 0.30 
召回 率 召回 率 
(a) CNN 作 为 句子 编码 器 的 模型 效果 (b) 使 用 RNN 作 为 句子 编码 器 的 模型 效果 


图 3.13 ”各 类 模型 在 单 语 言 场景 下 的 精度 -召回 率 曲 线 
WMA, 我 们 可 以 发 现 : 


CL) 同 直 接 使 用 单 语 言 数据 学 习 的 模型 相 比 , 利用 了 多 语言 信息 的 模型 在 单 语言 场 
景 下 的 表现 更 好 。 这 说 明 语 言 间 存 在 潜在 的 一 致 性 , 且 多 语言 数据 中 的 这 种 一 致 性 能 够 
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为 每 种 关系 提供 额外 的 信息 , 增强 其 在 单 语言 场景 下 的 结果 。 

(2) AMNRE 在 整个 召回 率 区 间 内 取得 了 最 佳 的 精度 ， 在 AUC 的 结果 上 也 相对 
MNRE 和 单 语 言语 料 训 练 的 关系 抽取 模型 取得 了 显著 的 进步 。 这 表明 AMNRE 框架 中 
的 一 致 语义 空间 使 多 语言 数据 列 含 的 语言 一 致 性 信息 能 被 更 好 地 挖掘 , 并 在 单 语 言 场景 
下 更 好 地 发 挥 出 作用 。 


表 3.13 ”各 个 模型 在 单 语 言 场景 下 的 AUC 结果 (%) 
模型 CNN-EN MNRE-EN AMNRE-EN RNN-EN MNRE-EN AMNRE-EN 
AUC 36.0 39.6 42.7 34.5 42.2 43.2 


模型 CNN-CN MNRE-CN AMNRE-CN RNN-CN MNRE-CN AMNRE-CN 
AUC 33.2 34.6 37.9 33.5 34.8 36.4 


3.6.3 小结 


本 市 近 出 了 一 种 基于 对 抗 训练 机 制 的 多 语言 神经 关系 抽取 模型 , 通过 将 多 语言 文本 
缆 含 的 各 语言 的 独立 信息 和 器 语言 的 一 致 信息 分 别 编码 到 不 同 的 语义 空间 ,并 采用 对 抗 
训练 机 制 来 更 深层 地 抽取 出 跨 语言 的 语义 信息 , 构建 统一 的 语义 空间 表示 ,以 达到 提升 
多 语言 场景 下 的 关系 抽取 效果 的 目的 。 


3.7 ”基于 知识 图 谱 与 文本 互 注 意 力 机 制 的 知识 获取 


现 有 的 世界 知识 图 谱 还 远 没有 达到 完善 的 程度 。 通常 ， 有 两 种 主要 方法 来 扩展 知识 
图 谱 中 的 世界 知识 , 一 种 是 训练 关系 抽取 模型 从 文本 中 进行 世界 知识 抽取 ; 为 一 种 则 是 
使 用 知识 表示 模型 在 图 谐 内 部 进行 世界 知识 填充 。 这 两 种 方法 都 可 以 有 效 发 现 新 的 世界 
知识 以 扩充 现 有 知识 图 谱 。 然而， 以往 的 工作 较 少 考虑 将 上 述 两 种 途径 结合 起 来 进行 统 
一 的 世界 知识 获取 。 

面 对 上 述 问 题 , 本 市 介绍 一 种 通用 的 联合 学 习 框 架 。 如 图 3.14 所 示 , 该 框架 在 单词 
与 实体 、 文 本 关系 模式 与 图 谱 关 系 模式 上 进行 了 全 面 的 对 齐 , 使 得 它们 的 特征 能 够 充分 
融合 。 在 图 谐 与 文本 对 齐 的 基础 上 , 为 了 进一步 缓解 远程 监督 的 噪声 问题 ， 该 模型 在 联 
合 学习 的 基础 上 提出 了 一 种 痢 矣 的 互 注意 力 机 制 , 互 注意 力 机 制 允 许 知识 图 详 和 文本 模 
型 使 用 各 目 特有 的 信息 来 辅助 彼此 进行 学 习 。 在 知识 图 谐 的 指导 下 , 远程 监督 标注 的 品 
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Fa HE Sn RSS. 与 此 同时 , 文本 特征 也 被 反馈 回 知识 图 谱 模 型 去 加 强 那 些 对 训练 
影响 较 大 的 知识 三 元 组 。 在 训练 推进 的 过 程 中 ,图谱 模型 和 文本 模型 通过 相互 指导 可 以 
逐步 量化 各 目 效果 。 

着 积 层 和 化 民 | an, 


知识 图 谱 表示 层 


O Ber 


Text) 文本 表示 学 习 模型 


er 25 ae 
f 
Ke KE 


KATT 基于 知识 的 注意 力 |; | 
‘= ==) 机 制 : 


KG} 图 谱 表 示 学 习 模型 
i mm m 


C&P C& aoe 


af i 站 ~ 


Bi i mm i 


‘SATT 基于 语义 的 注意 力 机 制 ! 。 久 引 


3.14 基于 知识 图 谱 与 文本 互 注意 力 机 制 的 知识 获取 框架 


3.7.1 ”算法 模型 


L 联合 学 习 的 整体 模式 


与 知识 图 谱 表 示 学 习 一 样 , 这 里 同样 将 整个 知识 图 谱 定 义 为 一 个 由 实体 集 、 关 系 集 
和 事实 三 元 组 集合 共同 组 成 的 大 集合 , 即 9 ={E,R,T}, KE E, RR 和 工分 别 表示 实体 
集合 、 关 系 集合 和 事实 三 元 组 集合 。 同 知识 图 谱 9 相对 应 的 信息 载体 是 文本 语 料 。 在 这 
E, 我 们 将 文本 语 料 定义 为 De D 是 一 个 文本 数据 集合 , 集合 的 基本 构成 元 素 为 文本 人 句 
Ta 

对 于 整个 联合 学 习 框 架 来 说 , 其 设计 目标 是 让 框架 可 以 支持 各 个 模型 在 统一 的 连续 
空间 中 同时 训练 ， 从 而 可 以 同步 获得 实体 、 关 系 及 单词 的 嵌入 表示 。 在 训练 过 程 中 , 通 
过 这 样 一 个 统一 空间 带 来 的 联合 约束 , 特征 信息 可 以 方便 地 在 知识 图 谱 和 文本 模型 之 间 
进行 共享 和 传递 。 在 这 里 , 我 们 将 所 有 的 髓 入 表示 及 模型 中 涉及 的 参数 都 定义 为 模型 参 
数 ， 并 用 符号 9 = {0r, 0r, 0v] RMN, 其 中 On, Or Oy TIJEKA, RR. WHE 
入 回 量 与 相关 参数 。 如 果 将 我 们 对 框架 的 性 能 要 求 形 式 化 描述 的 话 , 那么 模型 需要 做 的 
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就 是 找到 一 组 最 优 的 参数 9, 满足 
0 = arg max P(G,D | @) (3.48) 
即 
0 = arg max P(G, D | 0p, 0r, 0y) (3.49) 


其 中 , On. Or, Ov WENK EXKRASEZZ. P(G,D | 0) 是 一 个 定义 出 的 条 件 概率 ， 
FA SR AY i Ea ESE. RAS RRA ONTO, RANA SAWS EH. K 
达能 力 。 更 直观 地 讲 , PA EN EH re TB ae RF HN Pe A 2S AN BE Se A HE FE HU SE HY KH 
识 图 谐 结构 及 文本 语义 信息 。 而 条 件 概率 PG, D | 0) 又 可 以 进一步 被 分 解 为 


P(G,D |0) = P(G | 6z,AR)P(D | Or) (3.50) 


PG | 02,0r) 被 用 来 从 知识 图 谐 9 PARE, FERIA ARN A 
这 个 公式 的 物理 意义 是 希望 模型 能 够 最 大 限度 地 让 知识 图 谐 9 中 的 事实 概率 变 大 ， 
silpni eaaa 
P(D | Ov) 被 用 来 从 文本 语 料 D 中 学 习 文 本 特征 ， 并 得 到 单词 与 语义 藉 系 的 能 入 表 
示 。 这 个 公式 的 物理 意义 是 希望 模型 能 够 最 大 限度 地 让 中 句子 的 语义 信息 与 其 描述 
的 语义 关系 相对 应 。 
根据 物理 意义 , 这 里 将 知识 图 谱 在 参数 下 的 条 件 概率 PG | 05,0r) 定义 为 其 包含 事 
实 的 成 立 概率 , 将 文本 在 参数 下 的 条 件 概 率 P(D | Oy) 定义 为 语义 信息 与 语义 关系 匹配 
的 概率 。 对 原 概率 式 进 行 变换 ,可 得 到 


P(916pgnp)= || P((h,r,t) | Og,0R8) (3.51) 
(hr,t)eET 
及 
P(D | 8v) = | | P((s,rs) | Av) (3.52) 


sED 


其 中 ，P((h,7,t) | 0r, 0r) 定义 了 知识 图 谱 9 中 三 元 组 在 已 知 实体 与 关系 艇 入 的 情况 下 
三 元 组 成 立 的 条 件 概率 ; P((s,rs) | Ov) 定义 了 在 已 知 单词 艇 入 的 情况 下 D FAT s 能 
HEF SHIA TE MOR AR rs 的 条 件 概率 。 
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2. 知识 图 谱 表 示 学 习 模 型 
P(t | (h,r), On, OR) K P(r | (h,t), 0E, AR). 

对 于 每 一 个 知识 图 谱 G 中 的 实体 对 (h,t), 这 里 定义 一 个 潜在 关系 向量 ru 来 表达 
实体 癌 量 h 到 实体 向 量 t 之 间 的 变换 与 关联, 具体 形式 如 下 : 


ri 一 二 一 天 (3.53) 


与 此 同时 , 对 于 知识 图 谱 9 中 的 任意 三 元 组 (h,7,t) eT, 对 应 存在 一 个 显 式 的 关系 
r 来 描述 h 与 t 的 关系 , 且 这 个 7 存在 一 个 显 式 关 系 问 量 7。 所 以 , 这 里 可 以 将 三 元 组 的 
能 量 函 数 定义 为 
fr(h,t) =b- Tht — TI =b— I(t- h) -r| (3.54) 
Ep, b ES to SEF IK PERL, AEN P(h | (r,t), 0e, 0r) 为 例 来 形式 
化 地 给 出 T 中 三 元 组 的 条 件 概 率 : 
exp(f,(h, t)) 
` exp(fr(h',t)) 


R'EE 


P(h | (r,t), 0Eg£, 0R) = (3.55) 


类 似 地 , 可 以 定义 P(t|(h,r), 0E, 0r) 和 P(r | (h,t), 0E, 0r): Kk, 无 论 是 出 于 理 
念 还 是 落实 到 具体 模型 上 ， 这 个 条 件 概率 所 表达 的 任务 和 TransE 是 一 致 的 ， 只 是 其 个 
再 是 基于 边界 值 优化 而 是 基于 条 件 概率 优化 ,但 本 质 上 没有 差别 。 因 此 ,我 们 将 这 个 知 
识 图 谱 表 示 学 习 模 型 命名 为 Prob-TransE， 窗 意 概 率 形式 的 TransE。 

为 了 体现 联合 学 习 模 式 可 以 适应 多 种 知识 图 谱 表 示 学 习 模 型 , 这 里 引入 了 TransD®4 
来 对 知识 图 谱 中 的 三 元 组 进行 编码 和 髓 入 ,具体 形式 如 下 : 

Tht 一 tr 一 h, 

w= Mh, tea Mt 

Mrh = Toph, + I*r** 

M, = rpt] 4 [kr x ku © 
其 中 , 7,、h,、t 都 是 用 来 进行 映射 的 工作 向 量 。 类似 于 Prob-TransE, 我 们 将 基于 TransD 
进行 条 件 概率 优化 的 知识 图 谱 表 示 学 习 模 型 命名 为 Prob-TransD。 

D kr、kw 分 别 是 关系 与 实体 问 量 维度 。 


(3.56) 
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3. 文本 大 系 表示 学 习 模 型 

给 定 一 个 包含 两 个 实体 的 句子 , 句子 中 的 词 及 句子 本 身 的 语义 信息 很 大 程度 上 可 以 
揭 开 这 两 个 实体 间 的 关系 , 例如 , H. EAEEREN” 直接 表明 了 马克 。 吐 
温和 佛罗里达 州 是 人 与 籍贯 的 关系 。 已 有 很 多 工作 符 试 使 用 神经 网 络 来 挖掘 这 样 的 语义 
信息 ， 并 且 将 语义 信息 所 朱 述 的 关系 人 甬 入 低 维 空间 中 以 进行 关系 抽取 。 类 似 地 ， 这 里 也 
采用 郑 积 神经 网 络 对 文本 关系 进行 表示 学 习 。 考 虑 到 这 部 分 内 容 在 前 文 已 反复 出 现 , 我 
们 百 接 略 过 疮 积 神 经 网 络 的 介绍 。 

在 将 文本 句子 通过 卷 积 神经 网 络 得 到 表示 问 量 y 之 后 , 模型 最 后 会 得 到 评分 函数 : 


o = My (3.57) 
EF, M BKAVAES. WET P((s,rs) | Ov) 也 可 以 被 定义 为 如 下 形式 : 
| exp(or ) 
P((s,7s) | 0y) = —— Ars (3.58) 
É X exp(o,) 
reR 


4， 知识 图 谱 与 文本 的 互 注 意 力 机 制 


互 注意 力 机 制 由 两 部 分 组 成 , 包括 基于 知识 的 注意 力 机 制 模型 及 基于 语义 的 注意 力 
机 制 模 型 。 在 训练 过 程 中 , 这 两 个 部 分 相互 进行 合作 。 

1) 基于 知识 的 注意 力 机 制 

对 于 每 个 知识 (h,7s,t) € 工 来 说 ， 可 能 存在 大 干 包含 有 实体 对 (h,t) 的 句子 存在 
Tr, = {81,:… ,Sm}， 这 些 句 子 往往 能 暗示 实体 之 间 存 在 关系 ro HP m 是 包含 (h,t) 的 
人 句子 总 数 ， 且 这 些 句 子 的 表示 同 量 为 {y ,yy,}。 由 于 远程 监督 算法 标记 的 句子 包含 
一 些 模糊 和 错误 的 成 分 , 因此 , 我 们 认为 这 些 句 子 中 的 某 些 句 子 对 最 终 的 文本 关系 表示 
应 发 挥 更 大 作用 。 而 额外 的 知识 信息 可 以 外 e 用 来 在 联合 学 习 过 程 中 强化 句子 表示 。 具 体 
来 说 , 我 们 使 用 潜在 关系 问 量 ra E R» 作为 基于 知识 的 注意 力 来 突出 训练 数据 中 的 重 
要 句子 , 并 减少 噪声 成 分 。 


e;=tanh(W sy; + bs) (3.59) 
_ exp(Tht - €j) 
>》 exp(rat : ex) 
k=1 
TT 
rs 一 六 45Y; 


j=1 
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其 中 , Ws 是 权重 和 矩阵, bs EMA. a; 是 句子 输出 y; 的 权重 , 我 们 通过 加 权 求 和 来 
获得 全 局 的 文本 关系 模式 的 表示 回 量 rs。 该 向 量 可 以 被 用 来 计算 Pars) | Ov) WSF 
换 || P(s;, rs | Ov )。 

o=Mr, (3.60) 


P((r ,rs) | Ov) = _exp(Or,) 


` exp(oy) 


rER 

2) 基于 语义 的 注意 力 机 制 

对 于 每 个 关系 r c R, TMB PHA TAR AKAN LAM Yr = {hti 
(hnst) 这些 实 体 对 的 潜在 关系 门 量 为 {Tht Tant p 其 中 站 是 实体 对 的 数量 。 在 
知识 图 谱 表 示 模 型 中 , 我 们 希望 实体 对 之 间 的 所 有 潜在 关系 嵌入 都 接近 实际 关系 向 量 。 

由 于 实体 之 间 复 杂 的 相关 情况 和 知识 图 谐 在 构建 过 程 中 引入 的 误差 , 所 以 在 训练 过 
程 中 很 难 将 实际 关系 问 量 与 所 有 潜在 关系 问 量 接近 。 为 了 使 知识 图 谐 表 示 模 型 更 为 有 
效 , 我 们 尝试 使 用 从 文本 模型 中 提取 的 语义 信息 来 帮助 实际 关系 问 量 去 接近 那些 最 合理 
实体 对 的 潜在 癌 量 。 

e, = sii lis M, + bs) 

ae ‘Tht, ) (3.61) 
k=1 


Tk = DiT ht, 
j=l 


其 中 , W, 和 bs 是 式 (3.59) 中 同样 的 权重 矩阵 ， 用 来 将 神经 网 络 中 的 特征 映射 到 实体 
与 关系 的 图 谱 空 间 之 中 。M, ÆA (3.60) PRA r 对 应 的 特征 。b; 是 第 j 个 潜在 关系 回 
量 rae 的 权重 。 

我 们 对 这 些 实体 对 进行 合并 ， 并 计算 出 概率 分 布 P(rlw,0E,9r)， 用 以 奉 换 


| [P(r | (hj,t;), Og, O08). 
j=l 


b; = 


fr (hr) 一 "一 | — r || (3.62) 


P(r | Ym 0e at Seer aren 


ren 
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3.7.2 ”实验 分 析 


1. 数据 集 和 评测 指标 


1) 知识 图 谱 

实验 选用 Freebase 05 来 作为 知识 图 谱 的 数据 来 源 。Freebase 是 一 个 被 广泛 利用 的 
大 规模 知识 图 谱 ， 并 且 对 公众 开放 且 提 供 数 据 下 载 。 在 本 节 介 绍 的 工作 中 ， 实验 环节 引 
入 了 两 个 从 Freebase 中 随机 抽取 的 数据 集合 , 包括 FB15K 和 FB60K。FB15K 已 经 被 很 
多 工作 采用 并 作为 一 个 链接 预测 的 标准 测试 集合 长 期 存在 。 FB60K 是 一 个 拓展 目 Riedel 
等 人 L159 发 布 的 关系 抽取 文本 的 图 谱 数 据 集合 , 并 且 一 直 被 用 来 作为 关系 抽取 的 标准 数 
据 。 我 们 将 FB15K 和 FB60K 的 数据 集合 详细 细节 罗列 在 表 3.14 中 , 包括 实体 数量 、 关 
系数 量 、 事 实 三 元 组 数量 等 。 


表 3.14 数据 集 统 计 信 息 


数据 集 关系 实体 事实 

FBI5K 1 345 14 951 592 213 

FB60K 1 324 69 512 335 350 
2) 文本 语 料 


实验 部 分 从 《纽约 时 代 》 (New York Times, NYT) 周刊 杂志 的 文章 中 选择 合适 的 名 
子 作为 文本 语 料 。 选 取 句 子 的 方法 是 Mintz 提出 的 远程 监督 算法 ， 只 要 一 个 句子 同 
时 包含 一 个 三 元 组 的 头 实体 与 尾 实 体 , 那么 这 个 句子 就 会 被 加 入 文本 语 料 。 文 本 语 料 提 
取 了 194 385 个 同时 包含 FB15K 中 头 尾 实体 的 句子 , 并 且 将 句子 标注 为 头 尾 实体 所 对 应 
KANE). KASS ST FB15K 中 47 103 个 事实 三 元 组 , 共计 699 种 关系 及 6 053 
个 实体 , 我 们 将 这 个 文本 语 料 命名 为 NYT-FB15K， 即 基于 FB15K 抽取 的 NYT 文本 语 
AL. m FB60K 的 文本 语 料 则 是 直接 来 自 于 Riedel L159 在 关系 抽取 中 使 用 的 数据 ， 其 中 
有 570 088 个 句子 ,覆盖 了 63 696 个 实体 ,共计 56 种 关系 及 293 175 个 事实 三 元 组 。 我 
们 将 这 个 文本 语 料 命名 为 NYT-FB60K。 

实验 部 分 与 之 前 的 研究 工作 保持 一 致 , FB15K 与 NYT-FB15K 用 来 在 链接 预测 任务 
中 进行 评测 , FB60K 和 NYT-FB60K 则 被 用 在 文本 关系 抽取 这 个 任务 上 ,这样 的 设 定 最 
大 程度 地 保证 了 实验 的 公平 性 与 可 操作 性 。 
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2. 实验 设置 


在 联合 框架 中 ,实验 从 {0.1,0.01,0.001} 中 为 P(9 | On, 0r) 选择 知识 模型 的 学 习 率 ， 
从 {0.1,0.01,0.001} 中 为 P(D | Oy) 选择 文本 模型 的 学 习 率 。 对 于 疮 积 神 经 网 络 的 滑动 窗 
口 ， 实 验 从 {3,5,7} 中 选择 滑动 窗口 的 大 小 。 由 于 其 他 的 一 些 参 数 对 实验 的 影响 不 是 非 
常 大 ， 并 且 出 于 实验 背景 统一 与 公平 的 考量 ， 实 验 直接 使 用 过 去 一 系列 工作 H4 219 对 
于 卷 积 神经 网 络 的 参数 设 定 。 同 样 为 了 与 之 前 的 相关 工作 进行 对 比 , 词 、 实 体 、 关 系 的 
代入 维度 在 关系 抽取 任务 中 被 设 定 为 50, 而 在 图 谱 填 充 的 链接 预测 任务 中 , 岁入 维度 被 
WEA 100. FER 3.15 P, 我 们 罗列 了 实验 中 所 有 的 参数 细节 。 


表 3.15 模型 超 参数 设置 


知识 表示 模型 学 习 率 0.001 
文本 表示 模型 学 习 率 0.01 
人 句子 表示 维度 230 
词 向 量 维度 50 
位 置 向 量 维度 5 
卷 积 窗口 大 小 3 


3. 关系 抽取 效果 评估 


NYT-FB60K 数据 集 上 的 测试 结果 均 补 罗列 在 图 3.15 中 。 在 图 3.15 中 , JointD+KATT 
表示 与 Prob-TransD 联合 学 习 后 具有 知识 导 同 注意 力 机 制 的 卷 积 神经 网 络 模 型 ; Joint E+ 
KATT 表示 与 Prob-TransE 联合 学 习 后 具有 知识 导 回 注意 力 机 制 的 卷 积 神经 网 络 模型 ; 
CNN+ONE 表示 使 用 了 at-least-one 机 制 218| 的 卷 积 神经 网 络 模 型 ， CNN+ATT 表示 使 
用 了 句子 级 别 注意 力 机 制 NA 的 卷 积 神经 网 络 模型 , 也 是 当前 在 关系 抽取 任务 上 效果 最 
好 的 模型 。 除 此 以 外 , 我 们 也 将 这 一 系列 神经 网 络 模 型 与 经 典 的 基于 统计 的 关系 抽取 文 
本 模型 进行 了 对 比 ， 这 些 模型 包括 Mintz [34], MultiR 8, MIML [82] 及 Sm2r [96], 4 
果 同 样 被 罗列 在 图 3.15 中 。 

从 实验 结果 中 , 我 们 可 以 得 出 以 下 结论 : 

(1) 与 图 3.15 中 各 个 模型 相 比 ， 经 过 联合 学 习 框 架 训 练 之 后 的 文本 模型 在 整个 召 
回 率 区 间 上 都 取得 了 最 高 的 精度 ,并 且 在 效果 上 显 若 高 出 其 余 所 有 模型 。 当 召回 率 大 于 
0.15 时 ， 联 合 学 习 框 架 训练 后 的 模型 整体 提升 准确 率 在 10% ~ 20%。 当 召回 率 小 于 0.15 
时 ， 模 型 也 取得 了 最 好 的 效果 ， 并 且 比 其 余 模 型 更 为 稳定 。 总 体 来 说 ， 联 合 学 习 模 式 下 
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特征 融合 市 来 的 受 共 在 文本 模型 上 体现 得 十 分 明显 。 


精度 


0 005 01 015 02 025 03 035 0.4 
AE 


315 ”不同 关系 抽取 模型 的 精度 -名 回 率 曲 线 


(2) 除了 JointD+KATT JointE+KATT 之 外 , CNN+ATT, CNN+ONE 与 基于 统计 
的 模型 相 比 ,在 召回 率 超 过 0.15 的 时 候 同 样 取得 了 超过 10% 的 精度 提升 。 从 整体 上 来 
看 , 神经 网 络 模 型 精度 下 降 的 速度 要 慢 得 多 。 这 些 实验 结果 很 好 地 证 明了 深度 神经 网 络 
没有 局 限 在 特征 工程 上 , 并 且 能 够 目 行 从 原始 数据 中 挖掘 特征 ,稳定 又 有 效 。 

(3) 尽管 基于 统计 的 模型 精度 都 下 降 得 非常 快 , 尤其 是 与 一 系列 神经 网 络 模型 相对 
比 。 但 是 在 最 高 置信 和 度 的 推荐 中 , 即 从 0 开始 的 一 段 召 回 紊 上, 这些 模型 同样 能 够 得 到 
非常 不 错 的 精度 。 这 说 明 ， 虽 然 人 为 设计 的 特征 在 茶 些 方面 存在 局 限 性 ,但 还 是 十 分 有 
效 的 。 统 计 模 型 的 主要 优势 在 于 其 计算 规模 往往 很 小 ， 且 不 需要 过 多 的 训练 数据 ， 但 是 
有 效 特 征 需要 人 为 构建 与 挑选 。 这 些 统计 模型 训练 难度 比 基 于 神经 网 络 的 模型 要 简单 得 
Z, 将 两 者 进行 结合 并 用 于 我 们 的 工作 , 将 是 未 来 继续 改进 的 一 个 重要 方 癌 。 


4. 基于 知识 的 注意 力 机 制 的 定量 分 析 


对 于 关系 抽取 , 我 们 通常 会 更 加 注意 那些 具有 最 高 置信 度 得 分 的 推荐 。 毕 竟 我 们 并 
不 指望 模型 能 够 达到 十 全 十 美 , 高 置信 度 的 推荐 保持 一 个 很 好 准确 率 其 实 更 符合 我 们 的 
应 用 需求 。 为 了 能 够 更 详细 地 比较 联合 学 习 前 后 模型 结果 上 的 变化 , 实验 部 分 及 用 了 为 
一 种 评 信和 推荐 效果 的 测试 方式 。 实 验 部 分 将 推荐 得 分 排序 后 , 选取 最 局 置信 和 度 的 硅 干 个 
推荐 ， 此 时 预测 的 准确 率 将 作为 我 们 衡量 模型 能 力 的 指标 。 在 这 个 实验 中 ， 实 验 选 择 
Zeng?! 等 人 使 用 过 的 卷 积 神经 网 络 作 为 文本 编码 的 模型 。 卷 积 神经 网 络 编码 器 将 会 与 
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不 同 种 类 的 跨 句 学 习 机 制 相 结合 ,包括 at-least-one 机 制 (ONE)、 句 子 级 别 注意 力 机 制 
(ATT) 及 基于 知识 的 注意 力 机 制 (KATT)。 这 样 的 组 合 可 以 对 各 个 跨 句 合并 机 制 进行 定 
量 分 析 。 

实验 也 将 文本 模型 与 知识 图 谱 表 示 学 习 模 型 相 结 合 ,， 从 而 定量 分 析 联 合 学 习 带 来 的 
影响 。JointD 表示 与 Prob-TransD 联合 学 习 之 后 卷 积 神经 网 络 得 到 的 文本 模型 ，JointE 
表示 与 Prob-TransE 联合 学 习 之 后 卷 积 神经 网 络 得 到 的 文本 模型 , CNN 表示 没有 与 知识 
图 谱 进 行 联合 学 习 的 卷 积 神经 网 络 文本 模型 。 具 体 各 种 组 合 的 效果 被 罗列 在 表 3.16 中 ， 
包括 前 100 推荐 准确 率 PQ100、 前 300 推荐 准确 率 PQ300、 前 500 推荐 准确 率 PQ500 及 
准确 率 的 平均 值 。 


表 3.16 不 同 模型 组 合 情 况 下 的 P@N 评估 结果 (%) 
P@N 100 300 
异型 ONE ATT KATT ONE ATT KATT 
CNN+ 67.3 76.2 一 58.1 59.8 一 
JointE+ 67.5 74.1 75.8 63.0 63.2 68.0 
JointD+ 68.5 74.6 80.6 67.0 67.3 68.7 
P@N 500 平均 值 
模型 ONE ATT KATT ONE ATT KATT 
CNN+ 43.7 48.5 一 56.4 61.5 一 
JointE 十 57.3 59.3 63.0 62.6 65.5 68.9 
JointD+ 58.6 61.1 63.7 64.8 67.7 71.0 


从 实验 结果 中 , 我 们 可 以 得 出 以 下 结论 。 

CL) 所 有 的 文本 编码 器 ,无 论 采 用 哪 种 路 名 学 习 机 制 , 在 联合 学 习 框 架 下 进行 训练 
之 后 , 都 在 效果 上 有 大 幅度 的 提升 。 从 平均 的 推荐 准确 率 来 看 , 联合 学 习 后 , CNN+ONE 
的 准确 率 提 升 了 6% £A., 而 CNN+ATT 的 准确 率 提升 了 5% 左右。 实验 结果 表明 ， 联 
合 学 习 框 架 在 特征 融合 上 得 到 了 保障 , 联合 学 习 后 文本 模型 接受 到 图 谐 的 影响 提升 了 上 自 
身 的 推荐 效果 。 

(2) 比 起 与 Prob-TransE 进行 联合 学 习 的 文本 编码 器 ， 与 Prob-TransD 进行 联合 学 
习 的 区 本 编码 器 进一步 提升 了 推荐 效果 。Prob-TransD 是 一 个 比 Prob-TransE 更 复杂 、 更 
具有 表达 能 力 的 知识 图 谱 表 示 学 习 模 型 , 并 且 可 以 更 好 地 提取 知识 图 谱 特 征 及 理解 实体 
之 团 关 系 的 多 样 性 。 毕 竟 ,， 在 Prob-TransD 中 ， 实 体 在 不 同 关 系 的 环境 下 是 具有 不 同 的 
髓 入 的 ,这 可 以 更 好 地 满足 图 谱 中 多 样 性 的 表达 需求 。 实 验 结果 表明 ， 联 合 学 习 框 架 可 
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以 利用 图 谐 辅 助 训练 文本 模型 ,并 且 对 图 谱 模 型 的 适应 性 很 好 。 图 谱 模 型 的 效果 也 影 啊 
特征 融合 的 效果 ,表达 能 力 越 强 的 图 谱 模 型 对 文本 模型 的 效果 提升 越 明 显 。 

(3) 在 表 3.16 中 , 注意 力 式 的 路 句 合并 机 制 ATT. KATT 比 单纯 的 ONE 机 制 要 有 效 
得 多 。 训 练 过 程 中 所 使 用 的 文本 语 料 是 基于 远程 监督 机 制 目 动 抓 取 构 建 的 , 在 构建 过 程 
中 会 引入 大 量 杂 质 和 了 噪声。 这 很 好 理解 ,一 个 实体 对 如 果 出 现在 一 个 句子 中 ,这 个 句子 
很 有 可 能 在 语义 上 无 法 描述 实体 间 的 关系 。 而 注意 力 机 制 能 够 获取 到 最 有 意义 的 句子 ， 
并 从 这 个 句子 里 学 到 更 有 意义 的 租 入 , 所 以 在 效果 上 比 简单 的 特征 合并 要 高 出 许多 。 

(4) ATT 和 KATT 的 比较 进一步 表明 , 在 跨 句 合并 机 制 上 , 不 使 用 知识 图 谱 信息 的 
简单 注意 力 机 制 还 是 略 显 薄弱 的 。 即 使 是 含有 相同 关系 的 不 同 实 体 对 , 实体 间 的 关系 都 
有 者 细微 的 差别 ,这 与 实体 多 样 性 及 关系 多 样 性 有 关 。ATT 中 通过 一 个 模糊 的 全 局 回 量 
来 进行 重要 的 句子 选择 ， 显 然 这 是 无 法 满足 关系 多 样 性 的 特性 的 。 在 这 里 ， 我 们 将 知识 
图 谱 的 信息 融入 注意 力 机 制 中 。 对 于 不 同 的 实体 对 , 我 们 给 出 局 部 的 癌 量 来 进行 重点 句 
子 选 择 ， 而 这 些 局 部 问 量 在 全 局 上 又 密切 相关 。 因 此 , 基于 知识 的 注意 力 机 制 比 直 接 跨 
印 的 简单 注意 力 机 制 更 具有 区 分 度 与 对 别 能 力 。 


5. 图 谱 填 充实 验 


对 于 每 个 测试 的 三 元 组 (h, r,t), 实验 用 FB15K 中 的 所 有 实体 来 替换 头 实体 或 者 尾 实 
体 , 按照 式 (3.54) 计算 出 评分 后 以 降序 排列 。 依照 我 们 对 模型 的 设想 , 事实 三 元 组 ( 刀 1, t) 
WRR, 则 其 对 应 的 评分 应 当 比 将 换 后 所 有 的 三 元 组 都 要 高 。 我 位 御 以 往 工 作 一 贯 
的 设 定 , 使 用 正确 实体 能 量 得 分 排 在 前 十 的 比例 来 衡量 预测 质量 , 我 们 将 这 个 结果 称 为 
十 命中 率 (hits@10)。 

Bordes 等 人 09) 在 其 工作 中 将 知识 图 谱 中 的 关系 划分 为 4 类 : 一 对 一 (1-to-1)、 一 
对 多 (1-to-N)、 多 对 一 CN-to-1)、 多 对 多 (N-to-N). 实验 也 在 这 4 类 关系 上 分 别 进行 了 
测试 与 分 析 。 实 验 同样 汇报 了 不 同 关 系 类 别 上 的 十 命中 率 结 果 , 包括 头 实体 预测 、 尾 实 
体 预 测 两 个 任务 方 回 。 队 此 以 外 ,实验 汇报 了 三 元 组 级 别 的 平均 准确 率 用 以 刻画 模型 整 
TES BCR o 

由 于 实验 的 设 定 是 相同 的 ， 所 以 实验 直接 从 相关 工作 07, 19, 20, 91, 113, 195] 中 引用 了 
SE, SME, TransE. TransH. TransR. CTransR. TransD Æ FB15K 上 的 实验 结果 。 在 
实验 框架 中 ， 没 有 进行 联合 学 习 的 知识 表示 模型 被 称 为 Prob-TransE 和 Prob-TransD, 
与 卷 积 神经 网 络 文本 模型 一 起 进行 联合 学 习 的 知识 表示 模型 被 命名 为 JointE+SATT 和 
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JointD 二 SATT。 具 体 实 验 结 果 显 示 在 表 3.17 之 中 。 


表 3.17 头 尾 实体 链接 预测 的 结果 (%) 

mem 头 实体 预测 十 命中 率 尾 实体 预测 十 命中 率 总 计 
1-to-1 1-to-N N-to-1 N-to-N 1-to-1 1-to-N N-to-1 N-to-N 

SE [20| 35.6 62.6 iy 37.5 34.9 14.6 68.3 41.3 39.8 
SME [|17] 35.1 69.6 19.9 40.3 oT 14.9 76.0 43.3 41.3 
TransE [19] 43.7 65.7 18.2 47.2 43.7 19.7 66.7 50.0 47.1 
TransH [195] 66.8 87.6 30.2 64.5 65.5 39.8 83.3 67.2 64.4 
TransR [113| 78.8 89.2 38.1 66.9 79.2 38.4 90.4 72.1 68.7 
TransD [91] 81.2 94.8 47.1 79.3 81.6 53.9 93.7 82.5 78.9 
Prob-TransE 66.5 88.8 39.8 79.0 66.4 51.9 85.6 81.5 76.6 
JointE+SATT 82.7 96.2 45.0 80.7 81.7 57.7 93.6 84.0 79.3 
Prob-TransD 79.1 93.0 42.2 79.2 79.2 51.6 90.9 82.7 78.2 


JointD+SATT 82.7 95.2 A7.8 81.6 82.0 57.9 94.7 84.7 80.4 


从 实验 结果 中 , 我 们 可 以 得 到 以 下 结论 : 

(1) 无 论 是 预测 头 实体 , 还 是 尾 实体 , KE SHER PN ARAL 4 类 关系 上 几 
平 都 得 到 了 改善 。 这 表明 在 联合 框架 下 训练 的 知识 模型 利用 了 纯 文 本 信息 , 并 显著 改善 
了 关系 层面 的 知识 表示 结果 。 

(2) 与 多 对 多 关系 相 比 ,在 一 对 一 、 一 对 多 及 多 对 一 关系 上 ,联合 学 习 框 架 下 学 习 
得 到 的 模型 提升 效果 更 为 明显 。 这 表明 联合 学 习 框 染 融 入 的 文本 特征 对 确定 性 关系 的 幅 
入 有 很 好 的 帮助 。 

(3) TransD 是 TransE 的 扩展 模型 ， 具 有 更 复杂 的 实体 通 入 机 制 。 在 TransD 中 ， 
每 个 实体 在 不 同 的 关系 空间 中 具有 不 同 的 葡 入 表示 。 与 其 他 模型 相 比 ，TransD 可 以 取 
得 更 好 的 实验 结果 。 而 在 联合 学 习 框 架 中 与 文本 模型 一 起 学 习 后 ，TransD 进一步 提高 
了 效果 。 这 些 结果 意味 着 与 TransE 和 TransD 相似 的 其 他 知识 图 谱 表 示 学 习 模 型 (如 
TransH, TransR 等 ) 部 可 以 用 类 似 的 方法 与 联合 框 染 进行 整合 。 


3.7.3 WZ 

在 本 节 中 ,我 们 介绍 了 一 种 通用 的 联合 学 习 框 架 来 将 知识 图 谱 与 文本 模型 进行 整合 。 
联合 学 习 框 架 将 实体 、 关 系 和 文本 词汇 艇 入 统一 的 连续 空间 中 进行 特征 融合 。 基 于 联合 
模型 框架 ,本 节 进 一 步 提 出 了 知识 图 谱 与 文本 之 间 的 相互 注意 力 机 制 , 包括 基于 知识 的 
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注意 力 机 制 和 基于 语义 的 注意 力 机 制 。 这 两 部 分 注意 力 机 制 在 训练 过 程 中 互相 强化 知识 
表示 与 关系 抽取 模型 ， 从 而 提升 最 终 的 模型 效果 。 


3.8 BEBE 


虽然 已 有 的 世界 知识 图 详 包 含 了 上 亿 条 事实 , 但 相 比 于 无 尽 的 现实 世界 ,它们 远 远 
没有 完善 。 为 了 进一步 扩大 知识 图 谐 的 规模 ， 目 动 地 从 海量 数据 中 获取 新 的 世界 知识 已 
成 为 必由之路 。 本 章 独 重 介绍 了 以 关系 抽取 为 核心 的 世界 知识 获取 方法 。 我 们 在 归纳 已 
有 方法 的 基础 上 , 针对 关系 抽取 中 的 三 点 问题 介 绍 了 我 们 的 改进 方法 与 评估 和 实验。 总 的 
来 说 : 

(1) 通过 选择 性 注意 力 机 制 及 关系 层次 注意 力 机 制 , 我 们 可 以 在 远程 监督 的 场景 下 
充分 利用 包含 同一 实体 对 的 所 有 实例 信息 进行 抽取 , 并 在 较 大 的 程度 上 规避 远程 临 督 带 
来 的 噪声 。 

(2) 我 们 利用 多 语 诗 数据 构建 统一 的 关系 抽取 系统 ， 并 引入 对 抗 训练 在 多 语 诗 环境 
下 来 更 好 地 学 习 语 言 各 目的 特性 及 归纳 所 有 语言 的 共性 。 这些 多 语言 关系 抽取 系统 可 以 
利用 丰 早 的 多 语言 语 料 获 取 更 加 丰富 的 世界 知识 。 

(3) HWA SMA, 我 们 提出 了 一 套 通 用 的 联合 学 习 框 染 。 该 框 
染 在 融合 图 谱 知 识 信息 与 文本 语 料 语义 信息 的 基础 上 , 通过 一 套 巧妙 的 互 注意 力 机 制 来 
强化 各 目的 模型 效果 。 这些 笃 试 对 更 加 高 效 和 和 鲁 棒 地 进行 知识 获取 具有 重要 意义 。 

上 述 方法 能 够 在 大 规模 数据 的 复杂 场景 下 充分 利用 各 类 资源 构建 有 效 且 可 靠 的 知识 
获取 系统 , 这 将 有 助 于 更 好 地 获取 世界 知识 , 并 进一步 构建 出 更 加 完善 的 知识 图 语 。 


第 A 
世界 知识 的 计算 应 用 


世界 知识 表示 和 学习 将 世界 知识 图 详 中 离 敬 的 结构 信息 转化 为 低 维 空间 中 的 疝 量 表示 ， 
大 大 降低 了 世界 知识 图 证 的 处 理 复杂 上 度 , 增强 了 世界 知识 图 详 的 可 用 性 。 因 此 ,世界 知 
识 表示 学 习 被 广泛 地 应 用 于 各 种 需要 引入 知识 信息 的 下 游 应 用 中 。 

本 章 主要 展示 的 是 我 们 在 世界 知识 表示 学 习 的 应 用 中 做 出 的 符 试 。 我 们 将 探讨 世界 
知识 表示 学 习 如 何在 实体 分 类 、 实 体 对 齐 以 及 信息 检索 中 发 挥 作用 。 对 世界 知识 表示 学 
习 而 言 ， 这 些 应 用 目前 沿 属 新 视 , 且 在 这 些 应 用 中 能 体现 高 效 引 入 外 部 知识 或 提取 数据 
特征 起 到 的 作用 。 具 体 来 说 : 

(1) 实体 分 类 任务 则 在 根据 实体 的 相关 资源 判断 实体 语义 所 属 的 类 别 。 传 统 的 实体 
分 类 模型 仅 使 用 了 实体 在 文本 中 的 上 下 文 信息 , 却 忽略 了 现 有 知识 图 谱 这 一 包含 丰富 信 
县 的 资源 。 本 章 4.2 节 将 介绍 如 何 通 过 基于 知识 表示 学 习 的 注意 力 机 制 , 使 知识 图 详 中 
的 实体 关系 信息 在 实体 分 类 任务 中 得 到 有 效 的 利用 。 

(2) 实体 对 齐 的 目标 是 发 抉 不 同 知识 图 谱 中 实体 的 对 应 关系 。 相 比 一 般 的 图 匹配 任 
务 , 实体 对 齐 任务 由 于 针对 的 是 规模 上 庞大、 实例 差 弄 大 的 世界 知识 图 谱 而 具有 特殊 的 挑 
战 性 。 在 本 章 4.3 节 中 将 看 到 ， 通 过 对 知识 表示 学 习 输出 的 实体 表示 进行 匹配 ， 可 以 用 
较 低 的 计算 复杂 度 得 到 令 人 满意 的 实体 对 齐 效 果 。 

(3) 信息 检索 任务 的 目标 是 评估 僵 询 文本 和 文档 之 间 的 语义 相关 性 并 根据 文档 与 给 
定 碍 询 文本 的 相关 性 对 文档 进行 排序 。 在 许多 信息 检索 应 用 中 , 得 询 文本 与 文档 中 通 种 
均 有 实体 出 现 , 而 实体 中 包含 的 丰富 的 语义 信息 往往 能 够 在 很 大 程度 上 刻画 查询 文本 或 
文档 的 核心 主题 ， 进 而 为 查询 文本 和 文档 的 相关 性 判断 提供 指导 。 本 章 4.4 节 中 将 使 用 
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知识 表示 学 习 将 知识 图 谱 中 绚 含 的 实体 语义 信息 引入 信息 检索 模型 以 提升 其 效果 。 


4.2 ” 细 粒 度 实体 分 类 


知识 图 谱 以 关系 三 元 组 的 形式 , 提供 了 实体 间 丰 是 的 关系 信息 。 这 种 关系 信息 无 疑 
有 助 于 对 实体 类 型 的 推断 , 例如 , 在 已 知 美国” 与“ 加拿大 ”之 间 存 在 “接壤 ”关系 的 
情况 下 , 我 们 容易 推断 实体 “加 拿 大 ”很 可 能 为 一 个 国家 。 

为 了 在 实体 分 类 任务 中 充分 利用 已 知 的 关系 信息 , 我 们 提出 了 基于 知识 注意 力 机 制 
的 神经 细 粒 度 实体 分 类 (Knowledge-Attention Neural Fine-grained Entity Typing, KNET) 
模型 。 如 图 4.1 所 示 ， 通 过 在 上 下 文 表示 中 引入 受 知识 图 谐 实体 表示 指导 的 注意 力 机 
ti], KNET 模型 在 实体 分 类 任务 中 借用 了 知识 图 谱 这 一 资源 。 


特征 向 量 

上 下 文 与 实体 提 及 表示 

注意 力 机 制 和 AL ween hhenesspegiezt OOS) 查询 向 量 
(eee\< [LII] 

双向 的 LSTM 

OA ONO jii 

词 向 量 [OOO] [600] (290) [O00] (606) [600] | 
«Geraldine Chaplin and ulie Christie Concentrating on - 7 

—— 实体 增强 的 表示 


EFX 实体 提 及 F 下 文 


4.1 基于 知识 注意 力 机 制 的 神经 细 粒 度 实体 分 类 模型 框架 


4.2.1 算法 模型 


对 于 给 定 的 句子 和 该 句子 中 的 某 一 实体 提 及 , 我 们 将 句子 表示 为 词 序列 s = {:…… ,12， 
h mm 7172 p AP m 为 组 成 实体 内 容 的 词 , 1; 为 出 现在 实体 前 的 词 ,7; 为 
出 现在 实体 后 的 词 。 

KNET 模型 首先 在 词 问 量 的 基础 上 得 到 实体 提 及 与 上 下 文 的 舱 入 表示 。 由 于 实体 内 
容 包 含 的 词 通常 较 少 , KNET 采用 了 一 种 简单 高 效 的 方法 计算 实体 内 容 的 嵌入 表示 ,， 即 
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直接 将 实体 提 及 内 容 中 的 nm 个 词 的 词 问 量 进行 数值 平均 : 
m = > Mi (4.1) 


至 于 上 下 文 的 嵌入 表示 , 我 们 希望 模型 能 够 在 其 中 体现 出 不 同 词 的 重要 程度 ， 故 在 
KNET 中 设计 了 注意 力 机 制 , 为 上 下 文中 不 同 的 词 计算 不 同 的 注意 力 分 值 具体 地 , 上 下 
X {dz da h} 和 {71,72,73,…} 的 词 癌 量 被 分 别 输入 LSTM, 上 下 文 表示 c 则 是 LSTM 
输出 hi, hi, ae. he 的 加 权 总 和 , 即 


- ee (4.2) 
Sa; Ta 
其 中 , ai al 分 别 为 li ri 的 注意 力 分 值 , 而 工 为 模型 的 一 个 超 参数 , 控制 上 下 文 的 窗口 


大 小 。 
KNET 将 上 述 过 程 得 到 的 实体 提 及 内 容 和 上 下 文 的 供 入 进行 拼接 , 得 到 输入 样 例 的 


特征 癌 量 : 
T- | m | (4.3) 


TERR FS A PPA Il BZ Ja, KNET 采用 基于 多 层 感 知 机 的 多 标签 分 类 器 ,得 到 细 粒 
上 度 实体 分 类 的 输出 。 
为 了 衡量 上 下 文中 每 个 词 的 重要 程度 , 得 到 注意 力 分 值 , 我 们 在 KNET 模型 中 竹 试 
T 3 种 不 同 的 注意 力 机 制 。 
。 语义 注意 力 : 完全 根据 上 下 文中 词 的 语义 (对 应 的 LSTM 输出 ) 来 计算 其 注意 力 
分 值 。 这 种 机 制 没 有 考虑 实体 本 喘 与 上 下 文中 词 的 相关 性 。 
。 提 及 内 容 注 意 力 : 根据 上 下 文中 词 的 语义 与 实体 提 及 内 容 表 示 计 算 注 意 力 分 


{Ei 
。 知识 注意 力 : WREE PIC ia Be XS A es FY BAY SEB TAR A HRS 
IRV SIE Fk I ME o 


知识 注意 力 机 制定 KNET 模型 的 主要 创新 把 。 在 本 节 的 实验 部 分 我们 将 会 看 到 ， 
在 上 下 文 表示 中 引入 知识 表示 学 习 产 生 的 风 入 表示 能 明显 提升 模型 的 分 类 效果 。 不 过 ， 
在 此 之 前 , 我 们 还 需要 先 对 有 关 知 识 注 意 力 的 几 扣 问题 作出 解释 。 
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在 训练 过 程 中 , 我们 很 容易 知道 实体 内 容 与 知识 图 谱 中 实体 的 对 应 ,但 在 真实 的 预 

测 环境 中 , 实体 内 容 对 应 知识 图 谱 中 的 哪 一 个 实体 ,甚至 是 否 存在 这 样 一 个 已 知 的 实体 

与 之 对 应 , 都 是 未 知 的 。 在 KNET 模型 中 我 们 利用 回归 模型 根据 实体 提 及 内 容 及 上 下 文 

信息 得 到 实体 知识 嵌入 表示 的 近似 。 有 具体 地 , 用 单 向 LSTM 分 别 编码 左右 上 下 文 得 到 c 
与 ce。 实体 知识 葡 入 表示 被 近似 为 

| (4.4) 


ê = tanh ” 


在 训练 过 程 中 , 在 目标 函数 中 增加 实体 嵌入 表示 近似 的 平方 误差 来 构建 实体 提 及 内 
容 与 图 谱 实 体 嵌 入 表示 的 对 应 : 
Jxn(8) = -Y` le— ell? (4.5) 
KNET 根据 近似 的 实体 嵌入 è 尝试 在 知识 图 谱 中 找到 与 该 实体 提 及 内 容 对 应 的 实 
体 。KNET 首先 根据 实体 名 称 的 相似 性 ， 由 实体 内 容 检索 得 到 一 个 候选 实体 集合 。 若 该 
集合 中 所 有 实体 嵌入 表示 与 e 的 Lo 距离 均 大 于 一 个 预先 设 定 的 阔 值 ， 则 认为 知识 图 谱 
中 不 存在 与 该 实体 内 容 对 应 的 实体 , 在 知识 注意 力 中 直接 采用 近似 实体 嵌入 ; 否则 认为 
实体 提 及 内 容 与 该 集合 中 嵌入 表示 对 应 è 的 Lo 距离 最 小 的 实体 为 对 应 实体 ， 相 应 地 在 
知识 注意 力 中 采用 它 的 嵌入 表示 。 


4.2.2 ”实验 分 析 


1. 数据 集 与 实验 设置 


FIGER 是 一 个 广泛 使 用 的 数据 集 , CE Ling 等 人 H 的 工作 中 被 提出 , 用 于 实体 分 
类 。 但 是 ,FIGER 的 训练 集 不 包括 KNET 所 需要 的 实体 链接 信息 。 此 外 ,该 测试 集 的 粒 
度 还 不 够 细 (例如 , 超过 38% 的 实体 只 有 人 物 标注 , 没有 更 细 粒 度 的 标签 )。 于 是 , RAN 
目 行 构建 数据 集 , 该 数据 集合 包含 目 动 标注 和 人 工 标 注 两 部 分 。 

1) 目 动 标注 数据 集 CWIKI-AUTO) 

类 似 于 Ling 等 人 8) 的 工作 , 我 们 使 用 维基 百科 和 Freebase 来 生成 训练 、 验 证 与 
测试 三 部 分 数据 集 ， 并 采用 远 距 监督 技术 0434 来 进行 自动 标注 。 具 体 来 说 ， 我 们 在 维 
基 百 科 中 搜索 包含 链接 到 为 一 个 维基 页 面 超 链接 的 句子 , 该 链接 可 以 进一步 链接 到 一 个 
Freebase 实体 ， 其 类 型 标签 包含 在 Freebase 中 ， 这 个 标签 将 被 作为 标注 。 我 们 在 维基 百 
科 中 主要 搜索 FB15K 的 实体 , FB15K 是 Bordes 等 人 [19 构造 的 Freebase TÆ. 


m 
Cl 
Cr 
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Freebase 包含 数 千 种 类 型 , 通 种 比较 混乱 且 带 有 了 噪声。 例如 ,实体 纽约 市 有 85 种 类 
型 ， 包 括 城 镇 、 有 狗 的 城市 和 获奖 者 。 为 了 避免 这 种 混 消 ， 我 们 只 保留 在 FB15K 中 至 
DA 50 个 对 应 实体 的 类 型 , 然后 手动 地 将 它们 映射 为 一 个 包含 74 个 类 型 的 双 层 类 别 集 


yan 
EI a 


2) 人 工 标注 数据 集 (WIKI-MAN) 

远 距 监督 不 可 避免 地 会 将 噪声 引入 目 动 标注 数据 集 858, 20 。 因 此 ,从 维基 百科 中 随 
机 抽取 了 100 个 实体 和 它们 所 在 的 句子 , 然后 用 与 目 动 标注 数据 集 相 同 的 类 别 集合 来 手 
动 标注 它们 。 这 个 人 工 标注 数据 集 仅 用 于 测试 过 程 。 

目 动 标注 和 人 工 数据 集 各 自 有 弱点 。 人 工 标注 数 据 集 的 缺点 是 规模 小 ， 上 自动 标注 数 
据 集 的 缺点 是 远程 监督 的 假设 过 强 从 而 引入 噪声 。 但 是 ， 从 人 工 标注 数据 集 的 观察 结果 
来 看 ， 目 动 标注 数据 集 的 缺点 并 不 严重 : 只 有 很 小 一 部 分 实体 在 不 同 的 上 下 文中 有 不 同 
的 标签 〈 例 如 ， 在 FIGER 的 测试 集中 只 有 3.9%) 。 我 们 在 两 个 数据 集 上 分 别 进 行 了 实验 
和 结果 分 析 , 结论 基本 上 是 一 致 的 。 我 们 在 表 4.1 中 比较 了 FIGER、WIKLAUTO 和 WIKI- 
MAN. 


44.1 不 同 数 据 集合 的 比较 


数据 集 WIKI-AUTO WIKI-MAN FIGER, 
实体 总 数 100 000 100 562 
实体 平均 类 型 数 3.07 2.32 1.38 

AD 22.47% 16.00% 43.42% 

组 织 14.76% 11.00% 28.11% 

HH EA 39.90% 52.00% 18.15% 

其 他 类 型 22.87% 21.00% 12.81% 


注意 ， 在 实验 中 ，Freebase 扮 汤 了 两 个 角色 : OA KRL 与 TransE 提供 三 元 组 来 学 
SEAR; @ 为 标注 数据 集 提 供 类 型 信息 。 这 两 方面 不 一 定 需 要 用 同一 个 知识 图 谐 
来 守成， 相反 ， 筷 们 可 以 由 两 个 独立 的 知识 图 谐 来 实现 。 在 实验 中 ， 我 们 确保 四 中 的 三 
元 组 和 @@ 中 的 实体 类 型 信息 相互 独立 ,从 而 验证 模型 是 否 能 够 被 推广 到 使 用 不 同 的 数据 
图 谱 上 。 跟随 Ling 等 人 U 的 设 定 , 我 们 使 用 宏 平均 Fin WFE F 和 准确 率 来 评估 模 
型 的 性 能 。 一 般 来 说 , 我 们 认为 微 平均 F 是 最 能 代表 细 粒 度 实体 分 类 性 能 的 度量 指标 ， 
进一步 的 细节 可 以 在 之 前 的 相关 工作 中 找到 。 尊 从 Shimaoka 等 人 275) 的 设 定 , 我 们 使 
用 预先 训练 过 的 单词 回 量 进行 初始 化 L159。 我 们 使 用 Adam 优化 器 9° 用 于 参数 优化 。 
我 们 还 使 用 了 TransEH313 来 获取 实体 表示 回 量 。 为 了 避免 过 度 拟 合 , 我 们 使 用 随机 失 活 
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(dropout) 技术 , 作用 在 实体 的 表示 向 量 上 。 只 在 实体 上 使 用 的 原因 是 测试 集 的 实体 在 训 
练 中 可 能 是 未 见 的 , 而 上 下 文 单词 集合 在 训练 集 及 测试 集 上 并 没有 太 多 不 同 。 

在 超 参 数 调整 上 , 我 们 探索 了 不 同 的 参数 设置 候选 : 学 习 率 入 在 {0.01,0.005, 0.01} 
中 选择 , LSTM 的 隐 状 态 大 小 在 {100,150,200} 中 选择 , 词 向 量 的 大 小 在 {50, 100, 300} 中 
选择 ,窗口 大 小 L 在 {5,10,15} 中 选择 , 每 次 训练 集合 大 小 B 在 {100,500,1 000} 中 选 
择 。 基 于 模型 在 验证 集 上 的 表现 , 最 优 超 参 数 设 定 如 表 4.2 所 示 。 


表 4.2 ”最 优 超 参数 设 定 


超 参 数 设 定 值 

学 习 率 0.005 
LSTM 隐藏 层 维 数 100 
词 问 量 维 数 300 
窗口 大 小 15 

批 次 大 小 1000 


2， 实 验 结果 


神经 模型 已 经 被 证 明 比 大 多 数 基于 特征 的 模型 要 出 色 3, 213, 214) 。 因 此 ,我 们 选取 
以 下 两 个 经 典 的 神经 模型 作为 实验 基线 。 

(1) 带 语义 注意 力 的 神经 模型 (SA ) 。 根 据 我 们 的 了 解 ， 这 个 模型 475 是 当前 最 优 
的 模型 。 由 于 其 代码 还 没有 公开 , 我 们 自己 实现 了 其 模型 ,并 取得 了 与 作者 报告 类 似 的 
结果 。 

(2) 混合 神经 模型 CHNM) 。 我 们 也 实现 了 HNML7J ,这 也 是 一 个 具有 全 连接 层 和 
循环 层 的 神经 模型 , 但 是 没有 注意 力 机 制 。 

我 们 还 考虑 了 一 个 最 近 的 基于 特征 的 模型 — AFET], 它 也 使 用 来 自 知 识 图 谱 
的 辅助 信息 , 但 没有 考虑 将 实体 之 间 的 关系 知识 杠 入 模型 中 以 获得 更 好 地 实体 特征 。 

考虑 到 引入 了 知识 图 谱 这 样 的 外 部 信息 , 我 们 进一步 考虑 了 一 个 基线 一 一 KB-only， 
它 只 使 用 知识 图 谱 的 表示 向 量 来 做 实体 分 类 (以 阔 值 a 来 控制 ,以 x = e 替换 式 (4.3) 
中 特征 向 量 的 定义 ,测试 过 程 中 以 e 近似 )。 

我 们 将 以 上 这 4 个 基线 模型 与 我 们 的 神经 分 类 模型 进行 比较 ， 其 中 包括 内 容 注意 
(MA)、 知 识 注 意 (KA)、 消除 歧义 的 知识 注意 (KA 十 D)。 结果 显示 在 表 4.3 中 。 

从 表 4.3 中 , 我 们 可 以 看 到 : 

(1) 所 有 的 神经 模型 都 比 AFET 表现 得 更 好 , 展示 了 神经 模型 充分 利用 大 规模 训练 
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数据 的 能 力 。 
表 4.3 ”实体 分 类 的 表现 (%) 
数据 集 WIKLAUTO 
a 严格 宏 平均 微 平均 
准确 率 精确 率 AR Fi 精确 率 AX 
AFET 20.32 67.00 45.82 54.75 69.29 A? AO 52.61 
KB-ONLY 39.12 69.65 71.35 70.49 54.85 74.99 63.36 
HNM 34.88 68.09 61.03 64.37 72.80 64,48 68.39 
SA A2.77 75.33 69.69 72.40 77.35 72.63 74.91 
MA 41.58 73.64 71.71 72.66 75.94 75.52 75.72 
KA 45.49 T4. 852 12.46 13.62 76.96 15.49 16.22 
KA+D AT .20 75.72 74.03 T4.87 77.96 77.87 17.92 
数据 集 WIKLMAN 
严格 宏 平均 微 平均 
评 全 指标 准确 率 精确 率 ” ”召回 率 Fi 精确 率 HAX F; 
AFET 18.00 64.50 50.00 56.33 64.29 50.43 56.52 
KB-ONLY 17.00 55.50 T2.83 63.00 27.31 14.57 40.52 
HNM 15.00 61.80 68.00 64.75 62.35 68.53 65.30 
SA 18.00 66.67 73.67 69.44 65.54 75.43 70.14 
MA 26.00 65.13 78.50 71.19 64.09 82.33 72.08 
KA 23.00 64.69 18.92 71.10 63.25 82.608 71.67 
KA+D 34.00 68.41 82.83 T4.94 66.12 87.50 75.32 


(2) 与 SA FALE, MA 的 表现 稍 好 一 些 , 这 是 因为 MA 进行 了 一 种 简单 的 与 实体 相 
关 的 注意 力 机 制 。 这 表明 了 采用 实体 提 及 相关 注意 力 机 制 的 好 处 。 

(3) KA Al KA+D 在 所 有 方法 中 取得 最 佳 效 果 。 原因 是 KA 和 KA+D 都 从 知识 图 
谱 中 引入 了 丰富 的 实体 信息 ,并 比 其 他 方法 能 更 准确 地 关注 上 下 文 单词 。 它 表明 了 将 知 
识 图 谱 信 息 应 用 到 实体 分 类 模型 上 的 有 效 性 。 

(4) KA+D 在 所 有 评价 指标 下 的 性 能 都 优 于 KA。 该 模型 通过 对 实体 提 及 内 容 与 图 
谱 实体 的 相似 程度 进行 消 时 操作 ， 从 而 可 以 从 知识 图 谱 中 得 到 更 精确 的 信息 。 

(5) KB-ONLY 的 性 能 比 KA 和 KA+D 差 很 多 。 它 表明 , 虽然 知识 图 谱 信 息 对 实体 
类 型 分 类 有 好 处 , 但 它 并 不 能 单独 产生 作用 。 相 反 ， 它 必须 以 更 复杂 的 方式 与 文本 信息 
一 起 考虑 , 并 最 终 对 实体 分 类 任务 产生 作用 。 


3. 不 同 实体 上 的 模型 有 效 性 
为 了 研究 模型 的 细节 , 我 们 进一步 将 它们 在 测试 集 的 不 同 子 集 中 与 基线 模型 进行 比 
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较 。 测 试 集 基 于 实体 的 粗 粒 度 类 型 或 消 玫 难度 来 划分 。 

1) 实体 的 粗 粒 度 类 型 

我 们 研究 3 种 粗 粒度 实体 类 型 上 的 性 能 : 人 物 、 组 织 和 地 点 。 为 了 更 好 地 比较 ,我 
们 还 将 它们 与 一 个 简单 的 基线 模型 比较 一 一 M-ONLY, 它 只 使 用 实体 提 及 内 容 来 进行 分 
类 (以 x = m PKA (4.3) 中 特征 问 量 的 定义 )。 实 验 结 果 显 示 在 表 4.4 中 。 


表 4.4 ”在 不 同 粗 粒度 类 型 上 的 效果 比较 (%) 

类 型 人 物 $A 27, 地 点 
数据 集 WIKLAUTO 

M-ONLY 58.64 63.95 87.65 
HNM 63.79 66.85 86.26 
SA 68.47 71.85 90.74 
KA 70.77 74.18 91.23 
KA+D 74.87 75.16 91.75 
类 型 人 物 $n 27 地 点 
数据 集 WIKI-MAN 

M-ONLY 52.63 71.19 75.54 
HNM 54.00 50.00 76.69 
SA 55.77 81.36 79.26 
KA 67.72 75.41 79.29 
KA+D 67.14 90.32 81.62 


从 表 4.4 中 , 我 们 可 以 看 到 : KA 和 KA+D 在 更 “有 难度 ”的 粗 粒 度 类 型 上 获得 了 更 
大 的 改进 ， 如 人 物 与 组 织 。 原因 是 , 简单 地 根据 实体 内 容 ， 就 可 以 较 容易 地 确定 一 个 地 
点 实体 的 类 型 ， 因 为 它 经 常 包含 像 河流 或 大 道 这 样 的 信息 性 词汇 。 但 是 , 对 于 人 物 和 组 
w, 我 们 必须 更 多 地 依赖 上 下 文 信息 。 在 这 种 情况 下 , KA 和 KA+D 显示 了 它们 在 建 模 
上 下 文 信息 上 的 优势 。 M-ONLY 的 性 能 高 低 则 在 一 定 程度 上 显示 了 每 个 粗 粒 度 类 型 的 判 

2) 消 岐 难度 

在 KA+D 中 ， 在 对 知识 图 谱 中 的 实体 进行 消 卜 时 ， 需 要 依靠 上 下 文 环境 来 进行 操 
作 。 上 下 文 可 以 提供 关于 实体 属性 的 丰富 、 有 用 的 信息 ,也 可 能 几乎 不 包含 任何 有 用 的 
提示 信息 。 我 们 根据 消除 歧义 操作 的 结果 是 否 正 确 , 将 测试 集 划 分 为 两 个 子 集 , 分 别 命 
名 为 正确 集 和 错误 集 , 并 探讨 各 种 模型 在 其 中 的 性 能 。 结果 显 示 在 表 4.5 中 。 
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表 4.5 在 正确 /错误 子 集 上 的 模型 结果 (%) 
数据 子 集 正确 集 错误 集 
评估 指标 严格 微 平均 Fy 严格 微 平均 Fi 
WIKI-AUTO 80.53 19.47 
HNM 37.60 68.39 23.60 52.15 
SA 46.66 78.63 26.64 57.61 
MA 44.32 79.29 28.26 59.05 
KA 49.24 79.83 29.99 59.42 
KA+D 51.77 82.33 28.27 57.56 
数据 子 集 正确 集 错误 集 
评估 指标 严格 微 平 均 Fy 严格 微 平均 Fi 
WIKI-MAN 83.00 17.00 
HNM 15.66 67.80 11.76 51.95 
SA 20.48 75.05 5.88 47.37 
MA 28.92 75.22 11.76 53.85 
KA 24.10 75.23 17.65 53.93 
KA+D 34.94 78.32 12.50 54.77 


从 表 4.5 中 , 我 们 可 以 看 到 : 

(1) KA 在 两 个 子 集中 始终 优 于 所 有 基线 模型 。 它 表明 , 使 用 知识 图 谱 信 息 可 以 有 
力 地 实现 对 实体 分 类 的 改进 。 

(2) 所 有 方法 在 正确 集中 的 效果 比 在 错误 集中 更 好 。 结 果 是 合理 的 ,因为 在 正确 集 
中 的 实体 的 上 下 文 能 够 提供 更 准确 的 信息 ， 并 使 得 类 型 分 类 结果 更 好 。 

(3) 在 正确 集中 , KA+D 可 以 通过 消除 玻 义 从 知识 图 谱 中 获得 精确 的 实体 信息 ， 从 
而 显著 优 于 其 他 所 有 方法 。 在 错误 集中 , KA+D 的 优势 较 小 , 这 是 因为 消除 歧义 不 成 功 ， 
但 是 它 仍 然 优 于 基线 。 原 因 是 , EWE a 的 控制 下 , 在 这 个 子 集中 的 一 个 实体 将 被 对 应 
到 一 个 类 似 的 实体 (其 表示 向 量 也 会 有 用 ),， 又 或 者 保持 原始 文本 的 向 量 , 从 而 一 定 程 度 
上 减少 错误 。 

我 们 进一步 在 图 4.2 PERRE a 对 KA+D 的 影响 。 结 果 显 示 ， 当 a 增加 ( 即 对 
消除 歧义 结果 要 求 更 融 ) 时 , KA+D 的 性 能 在 正确 集中 得 到 了 改进 , 但 在 错误 集中 变 差 。 
因此 , 在 现实 世界 的 应 用 中 ,我 们 必须 根据 正确 集 / 错 误 集 的 比率 (数据 集 的 消 歧 困难 )， 
调整 a 以 实现 权衡 。 考虑 到 当 a 从 0.55 上 升 到 0.7 时 , 错误 集 的 性 能 急剧 降低 和 正确 集 
的 性 能 相对 缓慢 增长 , 我 们 将 a 设置 为 0.55, 最 优 参 数 如 表 4.2 所 示 。 
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微 平均 F,(%) 


微 平均 让 (%) 


0.5 0.6 0.7 0.8 0.9 1.0 


WOFI F(%) 


0.5 0.6 0.7 0.8 0.9 1.0 


图 4.2 a 对 KA+D 的 影响 
YE: co 表示 不 使 用 a 的 KA+D 模型 。 


4. 案例 分 析 


我 们 在 图 4.3 中 给 出 一 个 可 视 化 的 例子 ,比较 由 SA 和 KA+D 给 出 的 注意 力 数值 。 
从 这 个 示例 中 ， 我 们 可 以 看 到 : SA 未 能 将 注意 力 集中 在 对 实体 分 类 有 用 的 词汇 上 。 而 


模型 句子 和 注意 力 


.. tradition starred Omar Sharif, Geraldine 
SA Chaplin and Julie Christie. Concentration on 


the love triangle aspects of the novel, the film 


. tradition Barred Omar Sharif, Geraldine 
KA+D EA and Julie Christie. Concentration on 
the love triangle aspects of the novel 


图 4.3 ”案例 分 析 
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KA+D,， 通过 正确 地 对 应 知识 图 谱 中 的 实体 ， 可 以 将 重点 放 在 那些 有 意义 的 单词 上 ， 如 
starred. the film, Omar Sharif 和 Geraldin Chaplin。 由 KA+D 所 预测 的 类 型 是 人 物 、 艺 术 家 
和 演员 ,它们 与 带 标注 的 标签 相同 。 除 了 这 3 种 类 型 ,SA 还 预测 了 3 种 多 余 的 类 型 。 


4.2.3 小结 


在 本 下 中 ， 我 们 提出 了 一 种 新 的 注意 力 机 制 ， 它 利用 知识 图 谐 的 信息 ， 将 其 与 文本 
综合 考虑 ， 从 而 更 好 地 进行 实体 分 类 任务 。 


4.3 ”实体 对 齐 


给 定 两 个 知识 图 谱 Gi = (E1, Ri, Ti) 和 Go = (E2, Ro, n) 实体 对 章 任 务 则 在 发 现 它 
们 包含 的 具有 相同 含义 的 实体 ， 即 找 出 含义 相同 的 实体 e1 E€ 61,e2 E€ 62,e1 与 e2 含义 相 
同 。 由 于 现 有 知识 图 谱 种 类 繁多 , 构建 过 程 中 使 用 的 方法 、 资 源 等 存在 较 大 差 寞 ,实体 
对 章 任务 对 于 知识 驱动 的 应 用 来 说 有 者 重要 的 意义 。 

经 过 抽 娟 ,实体 对 章 可 以 锌 归结 为 图 匹配 问题 ， 即 求 出 使 两 个 知识 图 证 结构 最 相似 
的 节点 匹配 。 作 为 模式 识别 领域 的 经 典 问题 ， 图 匹配 问题 已 有 丰富 的 相关 研究 工作 , H 
已 被 成 功 应 用 到 诸多 任务 中 。 然 而 ， 由 于 世界 知识 图 谱 具 有 规模 上 庞大、 噪声 多 、 完 整 度 
低 等 特点 ， 现 有 的 图 匹配 得 法 通 疝 很 难 下 接 在 实体 对 齐 任务 中 有 用 了 武之 地 ， 因 此 目前 传 
统 的 实体 对 齐 方 法 基本 上 仍 停留 在 众 包 L159 或 者 利用 维基 百科 的 信息 框 OU 等 结构 民 
好 的 模式 或 本 体 上 。 这 些 方法 由 于 过 度 依赖 知识 图 谱 之 外 的 信息 , 要么 受 限 于 特殊 的 领 
域 , 要 么 人 工 成 本 高 而 难以 大 规模 应 用 。 

在 本 和 中 ,我 们 介绍 如 何 通 过 知识 表示 学 习 解 决 上 述 问题 。 我 们 的 模型 仅 倍 助 知 识 
图 谐 自 身 的 结构 信息 及 已 知 的 对 齐 种 子 集合 工 = {(ei,, ei) | eg € Ej en Fe, GMAAA 
同 语义 } 实现 对 知识 图 谱 实体 的 有 效 对 章 。 


4.3.1 ”算法 模型 


如 图 4.4 所 示 , 我 们 的 模型 使 用 知识 表示 学 习 对 知识 图 谱 的 结构 化 信息 进行 编码 , 并 
进而 利用 这 种 编码 实现 实体 对 齐 。 具体 而 诗 , 我 们 的 方法 由 以 下 3 部 分 组 成 。 
(1) ARRA. 根据 多 个 知识 图 谱 的 实体 关系 三 元 组 , 使 用 基于 平移 的 知识 表示 学 
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习 方法 学 习 实体 和 关系 的 表示 。 

(2) KERA. 根据 已 对 齐 实体 的 种 子 集合 , 模型 将 不 同 知 识 图 证 的 知识 腾 入 映 喘 
到 一 个 共同 的 语义 空间 。 

(3) 达 代 对 齐 。 通 过 将 新 找到 的 高 置信 和 度 对 齐 实体 加 入 种 子 集合 , 迭代 式 地 进行 实 
体 对 齐 和 知识 表示 的 更 新 。 

根据 这 3 个 部 分 的 定义 ,得 到 的 目标 函数 为 


L=K+I4+T1 (4.6) 


其 中 , K J AT TATRA RA. KERARI RIER. EP RT 
这 3 个 部 分 进行 更 加 详细 的 介绍 。 


知识 图 谱 向 量 中 的 关系 


图 4.4 整体 架构 
注 : 这 幅 图 表明 我 们 的 方法 使 用 TransE, 同时 使 用 参数 共享 和 软 对 齐 。 两 个 椭圆 框 内 的 节点 分 别 代表 来 自 图 谱 1 
AERE 2 的 实体 , 椭圆 框 内 的 节点 之 间 的 第 头 代 表 图 谱 1 和 图 谱 2 中 的 关系 。 图 谱 间 的 实 线 和 虚线 分 别 代表 进 代 
训练 过 程 中 的 对 齐 种 子 和 新 对 齐 实体 对 。 我 们 使 用 图 谱 间 的 链接 和 得 分 函数 来 表示 源 对 象 和 相应 目标 对 象 的 杠 入 。 
相同 的 纹理 代表 相同 的 实体 /关系 和 对 应 的 退 入 。 


知识 艇 入 应 用 一 般 的 知识 表示 学 习 方 法 将 知识 图 谱 转 换 为 实体 的 散 入 表示 ,其 评分 
函数 即 衡 量 了 该 艇 入 表示 在 编码 知识 图 谱 结 构 信 息 方面 的 优 和 劣 。 在 实验 中 , 我 们 尝试 了 
将 TransE 和 PTransE 两 种 不 同 的 知识 表示 学 习 方 法 用 于 模型 的 知识 秦 入 部 分 。 
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知识 嵌入 部 分 对 每 一 个 知识 图 谱 分 别处 理 , 未 考虑 不 同 知识 图 谱 间 实体 的 对 应 关系 ， 
而 联合 财 入 部 分 则 根据 已 对 齐 实体 的 种 子 集合 , 将 不 同 知 识 图 谱 的 知识 杠 入 映射 到 一 个 
共同 的 语义 空间 。 有 具体 地 ,我们 假设 知识 能 入 得 到 的 不 同 知识 图 谱 中 相同 实体 的 嵌入 表 
示 间 存在 简单 的 对 应 关系 , 而 联合 散 入 部 分 的 得 分 函数 值 E(e1, e2) 即 衡量 了 实体 能 入 表 
示 对 这 种 对 应 关系 在 e1 € E61 和 eo € Ep 间 的 满足 程度 。 在 实验 中 , 我 们 比较 了 如 下 3 种 
。 平移 模 型 (TB): 假设 两 图 谱 的 对 应 实体 藤 入 间 存 在 固定 的 平移 关系 rée), X 
应 的 能 量 函 数 为 E(e1,€2) = ||e1 + r67) 一 ezl|。 
。 线 性 模型 (LT): 假设 两 图 谱 的 对 应 实体 嵌入 间 存 在 固定 的 以 Me) AR 
阵 的 线性 变换 关系 , 对 应 的 能 量 函 数 为 Ele1, e2) = || Me) — e9||. 
。 参数 共享 模型 (PS): 假设 两 图 详 的 对 应 实体 姐 入 间 存 在 重合 关系 , 即 直 接 令 对 齐 
的 实体 在 两 个 知识 图 谱 中 共 至 同一 个 实体 艇 入 。 


J= 》 aBle,e2) (4.7) 
(e1,e2)EL 
这 里 工 为 对 章 种 子 集合 , 参数 共 至 模型 的 得 分 函数 为 7 = 0. 

直观 上 , 由 知识 戏 入 和 联合 嵌入 发 现 的 新 的 对 齐 实体 可 以 进而 被 模型 用 于 发 现 更 多 
的 对 齐 实体 。 因此 , 我 们 的 模型 通过 迭代 对 齐 部 分 引入 新 发 现 的 实体 对 齐 信 息 。 

对 于 知识 图 谱 91 中 的 每 个 未 对 齐 实体 el e Go 我们 根据 嵌入 找到 其 在 知识 图 谱 Go 
中 的 最 近邻 êz = arg min E(e1,€2); 其 中 E(e1,€2) = llel -ezllzvyra。 当 E(ei,é2) 小 于 预 
Fe BFE HY BEL O 时 , 我 们 认为 el、e2 构成 了 新 对 齐 实体 。 模 型 维护 一 个 新 对 齐 实体 集合 
M, 每 次 迭代 发 现 的 新 对 齐 实体 均 被 添加 其 中 。 为 了 使 新 对 齐 实体 能 够 有 效 地 被 用 于 发 
现 其 他 潜在 的 对 齐 实体 , 我 们 设计 了 两 种 不 同 的 迭代 对 齐 策 略 一 一 硬 对 齐 策略 CHA) 和 
软 对 齐 策略 〈SA )。 

在 刹 对 齐 朱 上 略 中 ,我 们 直接 使 新 对 齐 实体 在 两 个 知识 图 谱 中 共 圣 艇 入 ,即将 el e 
均 更 新 为 (el + e2)/2, 然后 将 新 对 齐 实体 加 入 对 齐 种 子 集合 。 这 种 策略 对 应 的 得 分 函数 
Al T = 0. 

便 对 齐 由 于 会 永久 保留 偶然 引入 的 错误 对 齐 实体 , 存在 着 比较 严重 的 错误 传播 问题 。 
为 应 对 该 问题 ,我们 设计 了 软 对 齐 策略 ， 对 每 个 新 对 齐 实体 的 可 靠 度 进行 评估 ， 并 根据 
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可 车 度 动态 调整 其 在 得 分 函数 中 的 权重 。 我 们 定义 可 靠 度 为 
R(e1, €2) = o(k(0 — E(e1, e2))) (4.8) 


其 中 , o 为 Sigmoid 函数 , k R+ 为 一 超 参数 。 我 们 希望 新 对 齐 实体 在 两 个 知识 图 谱 中 
能 够 共享 关系 三 元 组 ， 故 定义 软 对 齐 策略 下 的 得 分 函数 为 


Ls = > R(e1, €2) (Hee, ,€2) + ene) (4.9) 
(€1,e2)EM 
式 中 
Heere) = >. Ulea,r,t)+ XO U(h,r,e2) (4.10) 


(e1,7,t) (hyr,er) 
其 中 , U(e2,r,t). U(h,r,e2). Uler,7,t). U(h,r,e1) ASB RA ESR EE = CA EW aK A 
AY, FFT RA BBO PSK AA AY TransE 或 PTransE 模型 定义 。 


4.3.2 ”实验 分 析 


在 实验 中 ,我 们 主要 关注 实体 对 齐 。 此 外 ， 学习 到 的 知识 表示 还 可 以 帮助 单个 知识 
图 谱 补 全 , 包括 实体 预测 和 关系 预测 。 

1. 数据 集 和 评测 指标 

在 本 书 中 , 我 们 基于 FB15Ki9 构建 了 4 个 数据 集 。FB15K 最 初 是 从 Freebasell9 中 
提取 的 ,包含 14 951 个 实体 、1 345 个 关系 和 592 213 个 三 元 组 。 前 3 个 数据 集 DFB- 
1、DFB-2 与 DFB-3 用 于 实体 对 齐 , 最 后 一 个 数据 集 DFB-4 用 于 知识 图 谐 补 全 。 

1) DFB-1、 DFB-2 和 DFB-3 

我 们 以 相似 的 方式 构建 3 个 数据 集 , 方法 是 将 FB15K 三 元 组 随机 分 为 两 个 相似 大 
小 的 子 集 一 一 元 和 To, HEEL A R 之 间 的 共享 三 元 组 个 数 和 所 有 三 元 组 的 重生 比 
K O 满足 预定 义 的 值 。 这 两 个 知识 图 请 中 的 实体 集合 5 和 关系 集合 R 是 相同 的 。 我们 
知道 所 有 的 关系 对 齐 并 且 对 齐 种 子 L 是 从 最 高 频 的 实体 中 选择 的 。 其 他 实体 的 对 齐 被 用 
作 测 试 集 和 验证 集 。 这 3 个 数据 集 是 用 不 同 的 L 和 两 个 知识 图 谱 之 间 的 重 玲 比率 O 构 
建 的 , 如 表 4.6 ATA. 

2) DFB-4 

我 们 从 FB15K 中 提取 3 个 数据 集 。 前 两 个 用 作 训 练 和 测试 , 第 三 个 用 作 辅 助 训练 。 
我 们 首先 抽取 一 个 测试 集 , 然后 将 剩 下 的 三 元 组 分 成 两 个 子 集 ， 即 一 个 训练 集 和 一 个 辅 
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助 训 练 集 。 实 体 集合 5、 关 系 集合 R 和 对 齐 种 子 世 与 DFB-1 相同 。 训 练 集 、 测 试 集 和 辅 
助 训练 集 的 大 小 分 别 为 399 856、59 071 和 399 857. 


表 4.6 DFB-1、 DFB-2 与 DFB-3 的 统计 数据 


数据 集 RI || [Til 72| Ll 有 效 数 量 O 
DFB-1 1 345 14 951 444 159 444 160 5 000 1 000 0.5 
DFB-2 1 345 14 951 444 159 444 160 500 1 000 0.5 
DFB-3 1 345 14 951 325 717 325 717 500 1 000 0.1 
表 4.7 实体 对 齐 结果 
p DFB-1 DFB-2 DFB-3 
指标 
一 命 十 命 一 命 十 命 一 命 十 命 e 
中 率 (%) 中 率 (%) RE (%) PÆ (%) PE (%) PE (%) 

MTransE (LT) 38.9 61.0 237.7 12.3 33.8 4192 6.5 22.0 699.8 
MTransE (TB) 13.6 35.1 547.7 13.9 35.4 675.7 4.5 16.1 1255.5 
TransE+PS 61.9 79.2 1052 41.1 67.0 1549 122 34.6 431.9 
ITransE (HA) 62.6 78.9 100.0 41.2 66.9 1519 12.3 33.7 432.3 
ITransE (SA) 67.1 83.1 80.1 57.7 77.7 109.3 16.2 40.9 367.2 
PTransE + PS 65.8 83.4 629 46.3 721 968 15.8 40.2 346.9 
IPTransE (HA) 66.1 83.3 591 46.2 726 942 15.1 39.7 337.6 
IPTransE (SA) 71.7 86.5 49.0 63.5 82.2 67.5 20.4 47.4 281.0 


评估 指标 有 两 种 : 四 正确 实体 或 关系 的 平均 排名 (Mean Rank, MR); OHZ BI 10 
位 和 前 1 位 的 正确 答案 比例 (十 命中 率 和 一 命中 率 )。 其 中 , 十 命中 率 和 一 命中 率 越 高 越 
Gf, MR 越 低 越 好 。 


2. 实体 对 齐 


为 了 进行 比较 , 我 们 选择 两 个 模型 作为 基线 : 基于 平移 的 模型 和 基于 TransE 的 线性 
变换 模型 ， 这 些 模型 从 Vars 和 MTransElt3 引 中 的 Vara 中 改进 而 成 ， 被 命名 为 MTransE 
(TB) 和 MTransE (LT)。 我 们 还 选择 带 参数 共享 模型 的 TransE/PTransE (TransE/ 
PTransE+PS) 进行 比较 。 传 统 的 基于 张 量 的 模型 由 于 计算 复杂 度 局 而 未 被 选 为 基线 。 实 
体 对 齐 结 果 如 表 4.7 所 示 。 

从 表 4.7 中 , 可 以 看 出 : 

(1) FERRARA PHATE, 参数 共享 模型 优 于 线性 变换 模型 和 基于 平移 的 模型 ， 
这 验证 了 实体 及 其 对 应 实体 共享 相同 的 内 在 知识 。 
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(2) 在 欠 代 对 章 的 各 种 方法 中 ,， 软 对 齐 模型 始终 优 于 硬 对 齐 模型 和 其 他 基线 ， 原 因 
是 硬 对 齐 受 到 之 前 分 析 过 的 错误 传播 的 影响 。 

(3) 基于 PTransE 的 方法 优 于 相应 的 TransE 方法 , OAH EAI RRA A AIS 
得 到 更 准确 的 对 齐 结果 。 

我 们 进一步 在 图 4.5 中 展示 了 每 次 迭代 中 软 对 齐 策 略 的 性 能 。 

从 图 4.5 中 , 可 以 看 到 : 


72 
68 a n 
= i = : = 
= 64 : 
60 | 
E| = 
| 56 i | 
a oo aoi 1000 2000 3000 
ERRA ERA 


图 4.5 不 同 迭 代 次 数 下 我 们 方法 的 一 命中 率 和 MR 
注 : 十 命中 率 和 一 命中 率 有 相似 的 趋势 。 从 第 1 000 次 迭代 开始 每 500 次 迭代 进行 一 次 软 对 齐 。 


(1) 所 有 方法 的 性 能 都 随和 迭代 次 数 的 增加 而 逐渐 增长 ,而且 增 长 的 速度 在 逐渐 减 慢 。 
经 过 第 3 000 次 迭代 后 ,增长 率 很 低 ， 因 此 我 们 提供 第 3 000 次 迭代 的 结果 来 平衡 性 能 
MAE. HR 1 000 次 迭代 以 来 ,SA 方法 取得 了 比 其 他 方法 更 好 的 性 能 (在 第 3 000 次 
TERA, ITransE (SA) 的 性 能 甚至 比 PTransE+PS 更 好 )。 

(2) 在 第 1 500 KIRA, SA 方法 有 很 大 的 提高 ,这 可 能 是 由 于 我 们 在 第 1 000 次 
友 代 进行 了 软 对 齐 。 它 可 以 帮助 远离 对 齐 种 子 的 错误 实体 对 正确 地 对 齐 ， 从 而 提高 整体 
的 性 能 。 

(3) 对 于 MR, 非 迭 代 方 法 在 第 1 000 次 到 第 1 500 次 迭代 时 开始 增加 (表明 性 能 越 
KRÆ), 而 SA 方法 的 趋势 是 一 直下 降 。 由 于 MR 可 以 评估 模型 的 整体 性 能 , 实验 结果 
证 实 了 我 们 模型 的 稳健 性 。 

3， 知识 图 谱 补 全 

以 上 实验 已 经 证 实 了 我 们 的 方法 可 以 胜任 实体 对 齐 任 务 。 我 们 还 想 证 实 , 实体 对 齐 
可 以 帮助 学 习 更 好 的 知识 嵌入 ， 这 可 以 通过 知识 图 谱 补 全 27 19 ?0 来 评估 。 知 识 图 谱 
补 全 的 目的 是 当 h、r、t 中 的 一 个 丢失 时 补 全 三 元 组 (h,7,t)。 我们 的 评估 指标 有 两 种 : 
QO 正 确实 体 或 关系 的 平均 排名 (MR) ;@ 正 确 答案 在 前 10 名 (十 命中 率 ， 实体 ) 或 前 1 
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名 (一 命中 率 , 关系 ) 中 的 比例 。 我 们 也 遵循 前 文 提 到 的 “原始 ” 和“ 过滤” 的 评估 设置 。 
我 们 在 DFB-4 上 进行 实验 , 并 将 任务 分 成 两 个 子 任务 一 一 实体 预测 和 关系 预测 。 

为 了 比较 ， 我 们 选择 几 个 模型 作为 基线 : OTransE / PTransE， 其 只 能 利用 来 目 
DFB-4 训练 集 的 信息 ; @ TransE / PTransE + Aux, 其 可 以 利用 来 自 训 练 集 的 所 有 三 元 组 
和 来 和 目 辅助 集 且 头 实体 和 尾 实 体 都 是 对 齐 种 子 的 三 元 组 ; © MTransE (LT) 和 
MTransE (TB). H+ SA 模型 的 性 能 优 于 HA 模型 和 TransE / PTransE + PS， 限 于 
篇 幅 , 我 们 只 选 ITransE / IPTransE (SA) 作为 比较 。 

实体 预测 和 关系 预测 的 结果 如 表 4.8 所 示 。 


表 4.8 ”实体 预测 和 关系 预测 的 结果 


实体 预测 关系 预测 
指标 MR, 十 命中 率 (%) MR 一 命中 率 (%) 
原始 we 原始 wie 原始 Wie 原始 Wye 
MTransE (LT) 240.8 131.3 36.4 47.3 37.2 36.9 48.3 56.9 
MTransE (TB) 851.3 759.7 9.4 10.8 293.7 293.4 27.4 27.7 
TransE 246.1 131.6 42.5 54.3 55.9 55.6 44.2 50.7 
TransE + Aux 232.8 121.5 43.3 54.9 50.1 49.8 44.4 50.9 
ITransE (SA) 209.2 101.0 44,2 55.1 19.8 19.6 54.2 60.7 
PTransE 213.0 97.2 50.9 72.1 2.33 1.96 67.4 86.9 
PTransE + Aux 206.3 80.4 52.7 80.7 2.34 1.93 68.8 90.5 
IP TransE (SA) 197.5 70.6 53.0 80.8 2.03 1.62 68.6 90.8 


从 表 4.8 中 , 我 们 可 以 看 到 : 

(1) 具有 软 对 齐 的 参数 共 孚 模型 儿 乎 在 所 有 上 度量 中 都 优 于 所 有 基线 , 除了 在 一 命中 
率 的 原始 上 具有 可 比较 的 性 能 。 这 个 结果 表明 我 们 的 方法 可 以 成 功 地 利用 来 自 辅助 图 谱 
的 信息 来 改善 知识 艇 入 。 

(2) 参数 共享 模型 与 直接 采用 辅助 图 谱 (TransE/PTransE+Aux) 的 方法 相 比 , 取得 
了 更 好 的 MR。 这 表明 通过 过 代 添加 新 对 章 实体 对 ,我 们 可 以 实现 具有 更 多 信息 量 的 知 
RKA. 


4.3.3 ”小结 


本 市 提出 了 通过 将 不 同 知识 图 谱 的 实体 与 关系 编码 到 一 个 统一 语义 空间 中 , 利用 联 
合 知识 磐 入 来 实现 友 代 式 实体 对 齐 的 方法 。 我 们 提出 了 一 个 简单 而 有 效 的 参数 共享 模型 
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和 友 代 对 齐 模型 来 学 习 联 合 马 入 并 同时 进行 实体 对 齐 。 我们 在 实体 对 齐 和 知识 图 详 补 全 
两 个 任务 上 评估 了 模型 , 实验 结果 证 实 了 我 们 的 方法 比 其 他 基线 模型 更 具有 优势 ， 这 凸 
显 出 应 用 世界 知识 图 谐 对 实体 对 齐 任务 的 作用 。 


4.4 融入 知识 的 信息 检索 


近 些 年 来 , 信息 检索 在 两 个 方向 上 进行 了 探索 性 的 研究 。 其 一 是 神经 信息 检索 模型 ， 
包括 基于 表示 的 神经 网 络 信息 检索 模型 与 基于 交互 的 神经 信息 检索 模型 , 它们 使 用 神经 
网 络 从 大 规模 数据 中 学 习 分 布 式 表 示 并 进而 提升 检索 模型 效果 , 达到 了 当前 最 好 的 模型 
水 平 。 其 二 是 基于 实体 的 信息 检索 模型 ,将 知识 图 谱 的 信息 融合 进 信息 检索 模型 中 ,由 
在 充分 利用 人 类 的 先 验 知识 来 指导 信息 检索 模型 。 在 本 节 中 , 我 们 介绍 一 种 融合 知识 的 
神经 信息 检索 方法 (EDRM)， 能 够 做 到 将 人 类 的 先 验 世界 知识 汇 入 神经 检索 模型 之 中 ， 
从 而 显著 增强 检索 效果 。 


4.4.1 算法 模型 


EDRM 的 总 体 架构 如 图 4.6 所 示 。 

EDRM 引入 知识 图 详 的 语义 信息 构建 实体 表示 。 具 体 地 ， 实体 表 示 在 EDRM 中 包 
含 了 3 RORA: KARA, FRA RRA . 

SER BRA TEA ERA FR Embe 来 得 到 实体 e 的 实体 髓 入 vem: 


yom = Emb,(e) (4.11) 


HIRAM LF mm 个 词 的 实体 描述 文本 进行 编码 。EDRM 518 A ial fk AE Emb,, 
将 描述 词 w RADA v,,。 在 文本 中 的 所 有 词 岁入 合并 得 到 的 风 入 矩阵 Vy E, EDRM 使 
用 卷 积 核对 其 中 长 度 为 的 n-gram 编码 为 gi: 


gi = ReLU(W onn .VY75+ + bonn) (4.12) 


其 中 , Wonn 和 bonn 为 卷 积 核 的 参数 。V72+ 表示 第 j 到 了 + 的 词 嵌 入 合并 , 激活 函 
数 为 线性 整流 函数 (ReLU )。 
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mgram 表 示 实体 增强 的 表示 


ss 后 


排名 


实体 增强 的 
表示 


| O 
Piso arene areas Ae ee Te A [ 软 匹 配 特 征 
M 


4.6 EDRM 的 总 体 架 构 
在 卷 积 层 之 后 , EDRM 使 用 最 大 池 化 操作 得 到 描述 般 入 vdes: 
ie 一 max(g>, a a: — e] (4.13) 


RERAN KARAT m. BEKE e A n 种 类 型 Fe = {fr ,fj,… ,fn}， 
EDRM 首先 使 用 类 型 嵌入 层 Embip 得 到 方 WRA vg: 


vgn? = Embip(e) (4.14) 
然后 ，EDRM EHER 70 LTBI SE (RRA BSF AAR A vlyPe: 
WeyPe 一 >- ajU g, (4.15) 
j=1 

其 中 , a; ATX (4.16) 定义 的 注意 力 得 分 , BH 

ig m (4.16) 
> exp(P1) 

[=] 

Pj = b W bowUt; ! Uf (4.17) 


JOH, P, 为 查询 或 文档 表示 与 类 型 嵌入 f; 之 间 的 点 积 。 我 们 使 用 词 袋 作 为 查询 和 文档 
Hy Ba ETT Ze W row 为 参数 矩阵 。 

在 得 到 3 种 不 同 的 嵌入 后 , EDRM 使 用 一 个 线性 层 将 3 种 嵌入 合并 , 得 到 实体 的 语 
义 表示 : 
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Usem 一 yom 十 W (vi @ viype)T + be (4.18) 
其 中 , We 和 be 分 别 为 线性 变换 的 矩阵 与 偏 置 量 。 

为 了 有 效 地 将 知识 图 谱 中 的 语义 信息 引入 神经 信息 检索 模型 ， EDRM 使 用 词 -实体 
组 合 的 方式 同时 在 词 和 实体 上 对 查询 和 文档 进行 比较 。 有 具体 地 , 假设 查询 和 文档 的 实体 
袋 为 qde de, ARA q~ d”, 则 EDRM 通过 构建 交互 矩阵 M = {Mww, Mwe, Mew, Mec} 
分 别 考虑 了 以 下 4 种 不 同 的 关联 : 查询 词 和 文档 词 Cg’ — dd’). FEV ia] A SCRA SE AK (92” 一 
de)、 奉 询 实 体 和 文档 词 (ge — 怡 )、 碍 询 实 体 和 文档 实体 “gs*-de )。 区 互 矩 阵 的 元 素 定 义 
如 下 : 


ij — i ad \ Mt — i ad 
Mijn = cos(a, Via); Me = cos(vea, Via) 


j wart 6 ere (4.19) 
Mi, = COS(UEq, wa); Mi, = COS(Vi,q, Va) 


通过 函数 $5( ), EDRM 在 每 个 交互 矩阵 M 的 基础 上 计算 得 到 交叉 匹配 HM) 将 交 
又 匹配 拼接 后 ,， 即 得 到 最 终 的 排序 特征 8(M): 
(M) =[bAMoojigMoejiigMeohi 6(M ee)| (4.20) 
其 中 , o) 可 以 是 任意 基于 交互 式 的 检索 模型 的 排序 函数 。 


4.4.2 ”实验 分 析 


我 们 在 实验 中 设置 了 3 个 测试 场景 : 

e Testing-SAME: 测试 采用 DCTR 推断 出 的 标注 , 采用 经 典 搜 索 评 价 指标 的 归 一 化 
折 损 累计 增益 (NDCG) KER; 

e Testing-DIFF: 测试 时 使 用 TACM 推断 出 的 标注 ,同样 采用 归 一 化 折 损 累计 增益 
来 上 度量; 

e Testing-RAW: 测试 时 采用 平均 倒数 排名 (MRR) 来 测试 最 符合 文档 的 排序 结果 ，。 

DCTR 和 TACM 均 为 经 典 的 点 击 模 型 , 此 外 实验 的 对 比 模 型 还 有 基于 交互 的 神经 检 
索 模 型 K-NRM 与 Conv-KNRM. 通过 表 4.9 可 以 看 到 , 相 比 较 主要 的 基线 模型 (K-NRM 
和 Conv-KNRM) KW, AIE Testing-DIFF 和 Testing-RAW 上 有 更 好 的 表现 ,证明 模 
型 具有 更 好 的 泛 化 能 力 。 

接 下 来 我 们 验证 了 实体 在 检索 模型 中 的 作用 (如 图 4.7 和 图 4.8 Bros). BEM AI 4.7 
可 以 看 出 , 语义 匹配 所 占 比 例 远 远 高 于 精确 匹配 ， 这 与 K-NRM 及 Conv-KNRM 的 结果 
一 样 ,证 明 相 比 较 传 统 的 精确 匹配 来 讲 , 语义 匹配 更 加 重要 ; 接 下 来 我 们 可 以 看 到 交 又 
空间 以 及 实体 - 词 之 间 的 交互 占 了 较 大 比重 ， 从 而 证 明了 交叉 匹配 以 及 词 -实体 级 别 匹配 
的 有 效 性 。 
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Exact VS.Soft | Exact V5. Soft fl 


Solo Word VS. Others Solo Word VS. Others 


In-space VS. Cross-space In-space VS. Cross-space 


(a) EDRM-KNRM 核 的 权重 分 布 (b) EDRM-CKNRM 核 的 权重 分 布 
图 47 EDRM 的 排序 贡献 
注 : 图 中 展示 了 3 种 场景 : Exact 和 Soft 比较 了 精确 匹配 核 和 其 他 匹配 核 的 权重 ; Solo Word 和 Others as SM 
基于 文本 进行 匹配 的 比例 ; In-space 和 Cross-space 为 单一 宝 间 与 牙 空 间 匹 配 的 对 比 。 
文档 


Unigram 
28.32% 


Bigram 


26.96% al 


查询 


Trigram| 4,78% 4.78% 5.37% 3.21% 
18.14% ——— 


Unigram Bigram Trigram Entity 
26.45% 29.59% 26.51% 17.45% 


图 4.8 EDRM-CKNRM 的 单一 核 权 值 


为 了 进一步 探究 词语 的 n-gram 和 实体 之 间 的 交互 比例 , 我 们 得 到 了 图 4.8 所 示 的 结 
Ao MARA A SN BEA BEL Aa th, 从 而 进一步 证 明了 n-gram 及 加 入 实体 的 必 
要 性 。 

异型 的 提升 主要 来 源 其 泛 化 能 力 ， 因 此 我 们 进一步 分 析 其 原因 。 首 先 我 们 做 了 消融 实 
验 ， 如 表 4.10 所 示 。 从 表 4.10 中 可 以 看 出 , 实体 的 描述 对 增强 模型 的 泛 化 能 力 有 很 大 帮 
Bh, 加 入 3 种 语义 元 素 对 模型 的 效果 从 不 同方 面 有 了 一 定 提升 。 但 是 相对 于 Conv-KNRM 
来 说 , 仅仅 利用 实体 信息 (entity embedding) 对 模型 效果 的 提升 很 不 明显 , 我 们 认为 , 只 考 
虑 实体 仅仅 是 一 种 更 精确 的 n-gram 模型 ,在 这 里 Conv-KNRM 已 经 学 得 很 好 ， 因 而 融入 
实体 知识 带 来 的 变化 不 大 。 

为 了 进一步 探究 实体 对 于 检 索 模 型 的 影 啊 , 我 们 测试 了 不 同 场景 下 的 模型 的 表现 (如 
图 4.9 和 图 4.10 Bras), 并 发 现 我 们 的 模型 在 基线 模型 比较 难 做 对 的 问题 及 短 的 问题 上 ， 
效果 更 加 明显 ,这 进一步 说 明了 引入 实体 的 重要 性 。 
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CLC) Tie 
"0 KE DRM 


a 
i 
ast 


ra = 0 i 
Hard Ordinary Easy Hard Ordinary Easy 
(a) K-NRM VS. EDRM (b) Conv-KNRM VS. EDRM 


图 4.9 表现 和 查询 难度 的 关联 
注 : 横 轴 上 标注 了 3 种 不 同 的 难度 级 别 , 纵 轴 为 相应 组 中 的 Win/Tie/Loss( (a) AD 和 MRR( (b) 图 )。 


ae Win C Tie 
- K-NRM EDRM 


Win/Tie/Loss 
MRR 
Win/Tie/Loss 


Short Mein Long i Short TE Long 
(a) K-NRM VS. EDRM (b) Conv-KNRM VS. EDRM 
图 4.10 表现 和 得 询 长 度 的 关联 
TE: 模 轴 上 标注 了 3 种 不 同 的 长 度 级 别 , 纵 轴 为 相应 组 中 的 Win/Tie/Loss ( (a) 图 ) 和 MRR ( (b) 图 )。 


最 后 我 们 做 了 样 例 分 析 ， 如 表 4.11 FUR 4.12 Pra. 

EDRM-CKNRM 对 这 些 例子 进行 了 正确 的 排序 。 表 4.11 (a) 列 出 了 得 询 -文档 对 。 表 
4.11 (b) 列 出 了 能 够 为 匹配 得 询 -文档 对 提供 有 用 信息 的 相关 实体 语义 。 例 子 和 相关 语义 
均 通过 检查 EDRM-CKNRM 多 次 独立 运行 时 排序 的 变化 人 工 挑选 。 首先 , 实体 描述 能 够 
解释 实体 的 含义 。 例 如,“ 美 图 秀 秀 网 络 版 ”和 “美丽 说 ”是 两 个 分 别提 供 图 像 处 理 和 购 
物 服务 的 网 站 。 他 们 的 描述 提供 了 额外 的 检索 信息 ， 从 而 使 得 文本 的 表述 得 以 增强 。 其 
次 ,实体 类 型 可 以 在 问题 和 文档 之 间 建 立 深层 联系 。 例 如 ,不 同 问题 中 的 实体 “蜡笔 小 
新 ”和 “ 银 瑰 ”是 共 至 相同 的 实体 类 型 ;问题 和 文档 中 也 有 这 种 隐 省 的 关联 ， 如 “重大 
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表 4.11 查询 和 文档 样 例 


查询 文档 
Meituriuriu web version Meituxiuxiu web version: An online picture processing tools 
Home page of Meilishuo Home page of Meilishuo - Only the correct popular fashion 
Master Lu Master Lu official website: System optimization, hardware test, 


phone evaluation 
Crayon Shin-chan: The movie Crayon Shin-chan: The movie online-Anime 


GINTAMA GINTAMA: The movie online-Anime-Full HD online watch 
yE: 所 有 实体 以 强调 样式 显示 。 


表 4.12 相关 实体 的 语义 
实体 内 容 


Meituxiuxiu web version fia: Meituxiuxiu is the most popular Chinese image 
processing software, launched by the Meitu company 
Meilishuo Hib: Meilishuo, the largest women’s fashion e-commerce platform, 
dedicates to provide the most popular fashion shopping experience 
Crayon Shin-chan, GINTAMA 类 型 : Anime; Cartoon characters; Comic 
Master Lu, System Optimization 类 型 : Hardware test; Software; System tool 


TE: HU DST A Ja PST Sp ll T SEA THI A EAR 


4.4.3 “小 结 


本 市 介绍 了 如 何 利 用 知识 图 详 中 的 语义 信息 提升 基于 交互 的 信息 检索 模型 的 效果 。 
我 们 介绍 的 方法 并 未 使 用 TransB 等 方法 引入 知识 图 谱 包 含 的 关系 信息 ,利用 的 仍然 是 
低 维 空间 中 实体 的 语义 表示 。 实验 结 琳 表明 将 世界 知识 信息 应 用 在 信息 检索 中 是 未 来 人 
得 探究 的 方 同 。 


45 本章 总 续 


本 章 介 绍 了 我 们 在 世界 知识 计算 应 用 方面 所 做 的 探索 性 工作 。 共 体 地 ， 本 章 详细 展 
示 了 如 何 将 世界 知识 应 用 到 细 粒 上 度 实体 分 类 、 实 体 对 齐 和 信息 检索 三 种 不 同 的 应 用 中 。 
忆 的 来 说 : 
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(1) KNET 模型 对 细 粒 度 实体 分 类 引入 了 受 实体 表示 指 寻 的 注意 力 机 制 ,借助 知识 
图 谱 中 的 世界 知识 来 指导 处 理 实体 的 上 下 文 , 从 而 完成 实体 的 类 型 预测 。 

C2) 我 们 的 实体 对 齐 模型 基于 知识 表示 学 习 得 到 的 实体 表示 来 进行 实体 对 齐 的 建 
模 ,， 使 得 知识 图 谱 中 的 世界 知识 能 够 更 加 高 效 和 普 适 地 用 于 知识 图 谱 间 的 实体 对 齐 。 

(3) EDRM 模型 在 基于 交互 的 神经 信息 检索 模型 上 引入 了 实体 表示 信息 , fe 
文本 和 文档 中 的 实体 语义 来 更 加 准确 地 捕捉 二 者 间 的 相关 性 ,提高 了 信息 检索 的 质量 。 

我 们 希望 我 们 的 工作 能 够 让 读者 感受 到 世界 知识 在 数据 挖掘 、 目 然 语 言 处 理 等 领域 
的 巨大 洪 力 。 我 们 也 期 竺 它们 起 到 抛砖引玉 的 作用 , 局 发 更 多 的 人 来 探索 世界 知识 的 应 
用 价值 。 


在 这 一 部 分 , 我 们 以 知 网 CHowNet) 作为 研究 对 象 , 关注 语 言 知识 图 谱 在 表示 学 习 、 
自动 获取 和 计算 应 用 三 方面 的 相关 研究 。 

词语 是 人 类 语言 中 言语 或 写作 过 程 中 独特 且 有 意义 的 元 素 , 但 也 并 非 是 不 可 分 割 的 
语义 蛙 元 。 事实 上 , 一 个 词 的 总 思 可 以 表示 为 一 组 语义 单元 的 集合 。 例 如, 男孩 = 人 类 
+ 男性 + BS. 语言 学 家 将 人 类 语言 的 最 小 语义 单位 定义 为 义 原 OS, 并 且 一 些 语 言 学 
家 提出 所 有 概念 《如 义 项 、 词 和 短语 ) 的 语义 含义 均 可 以 由 一 个 有 限 的 义 原 集合 表示 。 义 
原 的 概念 与 语义 单元 的 概念 密切 相关 I, 可 以 帮助 我 们 更 好 地 理解 人 类 的 语言 。 

由 于 词 的 义 原 并 不 明确 ， 语 言 学 家 往往 通过 使 用 一 套 预 定义 的 义 原 集 来 标注 词语 ， 
进而 构建 义 原 知 识 图 谱 。 知 网 是 一 个 广泛 使 用 的 经 典 义 原 知识 图 谱 | 全 ， 它 定义 了 大 约 
2 000 TXR, 并 用 一 个 或 多 个 相 天 的 义 原 以 层次 结构 的 方式 标注 了 超过 100 000 “SFR 
文 常用 词 和 短语 , 而 且 其 义 原 标注 是 义 项 级 别 的 , 即 多 义 词 的 每 个 义 项 都 有 单独 的 义 原 
标注 。 知 网 的 标注 过 程 耗费 了 多 名 语言 学 家 近 20 年 的 努力 , 目前 还 在 保持 更 新 。 与 著名 
的 基于 同义词 集 (synset) 的 词 库 词 网 (WordNet) 033] 不同 的 是 , 知 网 的 构建 基于 还 原 论 
的 思想 , 而 且 强 调 义 原 所 代表 的 部 分 和 属性 的 重要 性 。 

1 是 知 网 中 词 的 义 原 标 注 示例 。 第 一 层 是 词语 “苹果 ”, 它 有 两 个 主要 的 义 项 , 它 
们 显示 在 第 二 层 : 一 个 义 项 是 知名 的 电脑 品牌 (Apple brand) ， 另 一 个 义 项 是 一 种 水 果 
(apple)。 第 三 层 是 义 原 ， 它 们 对 应 解释 了 每 个 义 项 。 例 如 ,第 一 个 义 项 Apple brand 表 示 
一 个 电脑 品牌 因此 它 有 样式 值 、 携 带 、 特 定 牌子 等 义 原 。 


R 
ULSER) sion TA 


define (定义 ) define (定义 ) 


(computer) (fruit) 


modifier (修饰 闻 ) modifier (修饰 词 ) 


图 1 知 网 中 词 的 义 原 标注 示例 


从 图 1 可 以 看 出 ， 知 网 中 的 每 个 义 项 的 义 原 都 用 了 多 种 关系 来 标注 ， 如 define 和 
modifer， 从 而 形成 了 复杂 的 层次 结构 。 在 本 篇 要 介绍 的 工作 中 ， 为 简单 起 见 ， 我 们 只 
把 一 个 词 或 者 义 项 的 所 有 义 原 视 作 一 个 义 原 集合 ,而 并 不 考虑 它们 的 内 部 结构 。 

目前 知 网 和 义 原 已 经 钴 广泛 应 用 于 诺 多 的 目 然 语 言 处 理应 用 , 包括 词 相似 度 计 
算 “2 250、 情感 分 析 O88], ta] SOA Be 9 等 。 我 们 也 会 在 本 篇 中 重点 介绍 义 原 在 词 表 
示 学 习 4456、 词典 扩展 22 和 语言 模型 68 中 的 应 用 。 


第 Sy 章 
语言 知识 的 表示 学 性 


词 表示 学 习 是 许多 自然 语言 处 理 任务 (如 语言 模型 0 和 神经 机 器 翻译 084 ) 的 基础 
PR. 目前, 已 有 大 量 关 于 词 表 示 学 习 的 研究 , 其 中 典型 模型 word2vec!!2” 和 GloVel153 
在 模型 有 效 性 和 计算 效率 之 间 取得 了 良好 的 平衡 , 受到 了 自然 语言 处 理 领域 研究 者 的 广 
泛 使 用 , 且 在 很 多 任务 中 表现 出 卓越 的 性 能 。 

但 传统 的 词 表示 学 习 也 具有 一 定 的 局 限 性 。 

(1) 传统 的 词 表 示 学 习 粒 度 较 粗 ， 主 要 关注 于 词 级 别 的 表示 , 通常 每 个 词 对 应 一 个 
RARR, 忽略 了 多 义 词 的 多 个 义 项 , 这 使 得 词 向 量 在 捕捉 全 局 特征 的 同时 弱化 了 特殊 
语 境 下 的 局 部 特征 表示 。 

(2) 绝 大 多 数 的 词 表示 学 习 是 从 大 型 语料库 中 学 习 词 的 分 布 信息 的 ,而 忽略 了 语义 
词典 包含 的 有 价值 的 信息 。 事 实 上 ,大 量 语义 词典 中 高 质量 的 结构 化 语义 信息 将 有 助 于 
更 好 的 学 习 词 表示 。 

上 述 问题 限制 了 词 表示 的 效果 , 也 使 得 在 词 表示 上 进行 词义 消 战 等 复杂 操作 难以 进 
行 。 

如 前 文 所 说 , 一 个 词 的 意思 可 以 表示 为 一 组 语义 单元 的 集合 。 例 如 , “男孩 ~ 人 类 上 
男性 + 孩童"。 语 言 学 家 将 人 类 语言 的 最 小 语义 单位 定义 为 义 原 na, 并 且 一 些 语言 学 家 
提出 所 有 概念 (例如 , 义 项 、 词 和 短语 ) 的 语义 含义 可 以 由 一 个 有 限 的 义 原 集合 表示 。 

为 了 解决 上 述 问题 ,本章 引入 语言 知识 图 谱 ， 依 托 知 网 中 的 义 原 信息 ， 在 一 个 更 加 
细 粒 度 的 层面 上 进行 表示 学 习 ， 从 而 捕捉 到 更 加 细致 的 语义 信息 。 这 些 研究 主要 从 以 下 
两 个 方面 进行 了 深入 与 展开 。 
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(1) 正如 词 表示 和 学习 对 词 信息 的 捕 提 的 重要 性 ， 义 原 的 表示 竺 习 也 对 语言 知识 的 利 
用 起 看 公关 重要 的 作用 。 在 本 章 中 , 我 们 妾 试 使 用 机 器 学 习 方 法 学 习 义 原 的 辣 量 表示 ， 
通过 不 同 的 义 原 的 表示 学习 方法 来 充分 学 习 更 加 细 粒 上 度 的 结构 化 语言 知识 。 

(2) 我 们 探讨 了 利用 语言 知识 图 谐 中 义 项 的 义 原 信息 来 改进 词 表 示 学 习 的 效 末 。 下 
观 来 看 , 现 有 的 词 表 示 学 习 方 法 均 基于 大 量 语 料 中 的 上 下 文 信息 , 低频 词 的 词 癌 量 学 习 
效果 较 兰 ， 义 原 知 识 可 以 很 好 地 增强 这 些 词 的 表示 学 习 效 果 ; 同时 , 知 网 是 基于 义 项 为 
词 的 前 提 下 进行 义 原 标注 的 , 这 也 为 义 项 的 表示 学 习 提 供 了 思路 ,对 词义 消 攻 等 任务 具 

本 章 主要 介绍 两 种 不 同 的 义 原 的 表示 学 习 及 词 癌 量 表示 学 习 增 踢 的 方法 。 在 具体 介 
绍 我 们 的 工作 之 前 , 我 们 会 对 相关 的 至 景 知识 进行 梳理 与 总 结 。 


5.2 ”相关 工作 


5.2.1 词 表 示 学 习 


近年 来 ， 词 表示 学 习 取 得 了 长 足 的 发 展 。 使 用 独 热 编 码 表 示 来 表示 词 是 简单 而 直接 
的 , 但 是 通常 会 遇 到 数据 稀疏 和 忽略 词 之 间 语 义 关 系 的 问题 。 为 了 解决 这 些 问 题 ，Rum- 
elhart 等 人 中 提出 了 向 量 表示 的 概念 , 将 所 有 的 词 映 射 到 一 个 连续 的 低 维 语义 空间 中 , 每 
个 词 有 一 个 词 疝 量 。 词 回 量 功能 强大 ， 目 前 已 经 广泛 应 用 于 许多 自然 语言 处 理 任务 , 包 
括 神经 语言 模型 :0123、 机 器 翻译 © 139、 句 法 分 析 82) 和 文本 分 类 [2261 , 

许多 研究 致力 于 提出 更 好 的 词 表 示 学 习 方法 。 而 词 表 示 学 习 任务 的 一 个 挑战 在 于 随 
痢 语料库 呈 指 数 级 增长 ， 模 型 效率 成 为 瓶颈 。Mikolov 等 人 27 提出 了 CBOW 和 Skip- 
gram 两 种 模型 ， 在 有 效 性 和 效率 之 间 取 得 了 很 好 的 平衡 。 这 两 个 模型 假设 词 的 意义 可 
以 很 好 地 反映 在 上 下 文中 ， 并 通过 最 大 化 词 和 上 下 文 之 间 的 预测 概率 来 学 习 词 表示 。 
Pennington 等 人 [9 进一步 利用 全 局 的 词 共 现 和 矩阵 进行 矩阵 分 解 来 学 习 词 表示 , 然而 , 这 
些 模 型 为 每 个 词 学 习 一 个 词 癌 量 ,， 而 不 考虑 许多 词 具 有 多 个 义 项 这 一 事实 。 Huang 等 
人 SI 以 及 Tian 等 人 085 利用 多 原型 癌 量 模型 来 学 习 词 表示 ， 并 为 每 个 词 的 每 个 义 项 
构建 不 同 的 癌 量 。Neelakantan FA 13 提出 了 学 习 每 个 词 的 非 参 多 重 租 入 的 Skip-gram 
模型 的 扩展 。Rothe 等 人 1455 则 利用 目 编 码 器 共同 学 习 词 、 义 项 和 同义词 集 在 同一 个 语 
义 空间 中 的 表示 。 
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此 外 , 绝 大 多 数 的 词 表 示 学 习 方 法 从 大 型 语料库 中 学 习 词 的 分 布 信息 ,而 忽略 了 语 
义 词典 包含 的 有 价值 的 信息 。 因 此 , 一 些 工作 试图 将 知识 图 谱 的 语义 信息 注入 词 表 示 学 
习 模 型 中 "6,53, 117, 138), 然而 , 这 些 工作 都 使 用 了 基于 词 的 知识 图 谱 , 如 词 网 , 很 少 有 工 
作 关 注 如 何 将 义 原 知识 融入 其 中 。 


5.2.2 iW Siwy 


im] 0 YR (Word Sense Disambiguation, WSD) 旧 在 推断 出 多 义 词 在 特定 上 下 文中 的 
义 项 , 有 两 种 词义 消 攻 的 方法 : 有 监督 的 方法 和 基于 知识 的 方法 。 

有 监督 的 方法 通常 把 目标 多 义 词 的 上 下 文 词 作为 特征 提取 出 来 , 然后 使 用 分 类 器 (如 
文 持 问 量 机 ) 来 进行 词义 消 怪 11 中 , 但 是 这 种 方法 依赖 人 类 专家 对 训练 数据 进行 标注 , 这 
个 过 程 非常 的 耗 时 耗 力 。 

相反 ,基于 知识 的 方法 利用 诸如 知识 图 谱 或 字典 等 大 规模 外 部 知识 信息 ， 它们 可 以 
告诉 我 们 每 个 词 所 有 的 义 项 。Banerjee A! 探索 了 将 词 网 13 引 中 大 量 的 语义 关系 层次 
应 用 于 词义 消 琉 的 方法 。Bordes AP 引入 了 词 网 中 同义词 集 (synset) 信息 来 学 习 词 
语 表 示 。Chen ABH 把 词 网 中 的 同义词 集 看 作 不 同 的 义 项 ， 然 后 联合 进行 词义 消 野 和 
词 / 义 项 表示 学 习 。Guo SA! 应 用 了 双语 语料库 来 学 习 特 定义 项 的 表示 。Jauhar 等 
AB! 提出 了 两 种 基于 本 体 的 学 习 特 定义 项 的 表示 学 习 方法 。Pilehvar EA 利用 了 个 
性 化 的 PageRank 方法 来 学 习 解 构 的 词语 的 义 项 表示 。 


5.3 MIRA Rem = FJ 


本 下 介绍 两 种 简单 的 义 原 表示 学 习 方法 , 这 两 种 方法 均 基 于 已 经 得 到 的 词 问 量 的 后 
处 理 模型 , 利用 了 词 和 义 原 之 间 的 关系 。 在 得 到 义 原 的 癌 量 表示 之 后 , 我 们 还 可 以 使 用 
义 原 疝 量 的 平均 作为 义 项 或 者 词 辣 量 , 而 且 我 们 发 现 对 于 低频 词 , 基于 义 原 回 量 平均 的 
词 表 示 效 果 比 卫 接 利用 上 下 文 信息 学 到 的 词 表示 的 效果 更 好 。 


5.3.1 ”算法 模型 


L 义 项 不 敏感 的 义 原 问 量 表示 学 习 模 型 
这 一 模型 忽略 词 的 多 个 义 项 , 将 知 网 中 一 个 词 的 所 有 义 项 的 所 有 义 原 合并 作为 词 的 
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义 原 集合 。 我 们 构建 了 一 个 图 51 所 示 的 神经 网 络 来 学 习 义 原 问 量 。 这 个 模型 与 CBOW 
模型 030 貌似 差不多 , 但 实际 上 有 所 不 同 : CBOW 模型 同步 更 新 上 下 文 疝 量 与 词 癌 量 ， 
而 我 们 的 模型 首先 在 训练 语料库 上 运行 CBOW 后 得 到 词 向 量 表示 , 然后 固定 训练 好 的 
词 问 量 不 变 , 不 断 更 新 目标 词 所 辖 的 义 原 问 量 。 其 基本 思想 如 下 : 训练 词 所 辖 的 义 原 问 量 
去 通 近 该 词 占 量 , 使 学 到 的 义 原 癌 量 可 较 好 地 预测 这 些 义 原 共 同 作 用 所 定义 的 词 问 量 。 


输出 层 QI 
隐藏 层 eee 
m= [000000000000000 


duty physical wrap tool wrap 
责任 物质 包扎 HWE 包扎 


图 5.1 义 项 不 敏感 的 义 原 向 量 表示 学 习 神 经 网 络 模型 
形式 化 地 , 给 定 词 wi 的 词 问 量 w 和 该 词 对 应 的 义 原 问 量 s1,… , sn， 训练 目标 为 
LS 
L= T 2 los P(w: | S1,°°° , Sn) (5.1) 


通过 求 和 遍历 整个 训练 集 (规模 为 7) 来 计算 义 原 正确 预测 所 定义 词 的 对 数 概率 。 我 
们 使 用 Softmax 函数 来 定义 预测 的 概率 P(w: | s1, Sn): 


sd | aces ee exp(s - wi) 
Pl i | 1; 1 n) y exp(a . tw) (5.2) 
wiEW 
其 中 , W 是 词 表 , s 是 所 有 义 原 丫 量 的 平均 值 ， 即 
s= 7 Ds (5.3) 


b “包容” 为 例 , 我 们 的 模型 会 把 它 的 所 有 义 原 ， M duty FHE” “physical MJR” 
“wrap 一 包扎 ”“tool 一 用 具 ” 和 “wrap 一 包扎 ”的 平均 问 量 作为 隐藏 层 的 癌 量 , 用 于 预测 
“和 包 被” 一 词 。 

从 式 (5.1) 可 以 看 到 , 计算 预测 概率 时 需要 退 历 整个 词 表 ,而 词 表 往往 是 比较 大 的 ， 
因此 本 文 使 用 层次 化 的 Softmax 来 降低 计算 复杂 度 。 词 的 迭代 训练 有 两 种 不 同 的 选择 : 
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中 在 知 网 上 进行 迭代 (遍历 的 训练 集 为 知 网 词 表 ),， 即 允 历 词典 中 的 每 一 个 词 , 每 个 词 的 
训练 次 数 都 一 样 (此 时 义 原 向 量 的 更 新 过 程 与 语料库 无 关 ); @ 在 大 规模 语料库 上 进行 迭 
代 ( 避 历 的 训练 集 为 语料库 )， 即 依次 裔 历 大 规模 语料库 中 的 每 一 个 词 , 在 一 轮训 练 过 程 
中 , 每 一 个 词 的 训练 次 数 束 是 这 个 词 在 语料库 中 出 现 的 次 数 。 


2. 义 项 敏感 的 义 原 同 量 表示 学 习 模 型 


义 项 不 敏感 的 义 原 回 量 表 示 季 习 模 型 使 用 一 个 词 的 所 有 义 原来 预测 对 应 的 词 , 在 更 
新 词 问 量 时 也 会 更 新 所 有 的 义 原 癌 量 。 而 实际 上 在 特定 上 下 文中 , 一 个 多 义 词 仅 体现 一 
个 义 项 ,而 非 所 有 的 义 项 同时 起 作用 。 于 是 , 我 们 进一步 提出 义 项 敏感 的 义 原 癌 量 表示 
学 习 模型 (如 图 5.2 所 示 ),， 使 得 模型 在 训练 过 程 中 会 根据 句子 的 具体 上 下 文 来 选择 w 
最 可 能 的 义 项 , 然后 只 使 用 和 该 义 项 对 应 的 义 原来 预测 wi。 同 样 地 , 梯度 更 新 时 也 只 更 
Bt IK EE NC R E o 

包容 


答 出 层 CII] 


隐藏 层 
输入 层 
duty physical wrap ' tool wrap 
责 ! 物质 包扎 : MB 包扎 
v.. _ $ a 
EFX 


图 5.2 义 项 敏感 的 义 原 丫 量 表示 学习 神经 网 络 模型 


形式 化 地 , 对 于 给 定 词 wo 我 们 首先 计算 其 第 j 个 义 项 的 向 量 wi: 


l 


152 | 知识 图 谱 与 深度 学 习 


其 中 ,nj 表示 词 w 第 j 个 义 项 的 义 原 数 。 然 后 挑选 与 该 词 的 上 下 文 最 接近 的 义 项 
Wir = arg max cos( Wij, C) (5.5) 


其 中 , c 是 该 词 当 前 上 下 文 窗口 中 的 平均 词 同 量 。 

当 挑 选 出 与 上 下 文 最 接近 的 义 项 之 后 , 在 预测 和 更 新 时 都 只 使 用 这 个 义 项 所 对 应 的 
Ai FOUR, HA Ai ATA SUR. FIA “eR” AP, 在 训练 时 , 模型 会 根据 该 词 在 
语料库 中 的 当前 上 下 文 来 选择 最 为 相关 的 义 项 。 不妨 假设 某 个 时 刻 选 择 了 图 5.2 中 的 第 
二 个 义 项 ， 那 么 模型 将 使 用 义 原 “physical 一 物质 ”和 和 “wrap 一 包扎 ”的 平均 癌 量 来 预测 
“ALAR”, 对 应 地 ,也 只 会 更 新 义 原 “physical 一 物质 ”和 “wrap 一 包扎 ”的 问 量 。 


3. 义 项 回 量 和 词 辣 量 的 获得 


上 述 两 个 模型 得 到 了 所 有 义 原 的 癌 量 表示 ， 则 : 各 义 项 癌 量 取 所 辖 各 相应 义 原 问 
量 的 平均 值 即 可 ; OX TREA, 其 词 同 量 取 CBOW 预 处 理 得 到 的 词 问 量 , 而 对 较 低 
频 词 ， 我 们 认为 CBOW 预 处 理 得 到 的 词 问 量 的 效果 较 和 大 ， 因 此 选择 其 所 辖 义 原 癌 量 的 
平均 向 量 作为 词 癌 量 。 


5.3.2 ”实验 分 析 


本 市 在 两 个 任务 上 来 验证 我 们 所 提出 的 模型 : 一 个 是 词 相 似 度 任务 , 用 于 检验 得 到 
的 词 癌 量 的 有 效 性 ; 为 一 个 是 标准 词义 消 卜 任务, 用 于 验证 基于 义 项 癌 量 的 消 歧 算法 。 实 
验 结果 表明 本 书 提出 的 模型 :DD 在 词 相似 上 度 任务 上 能 够 提升 与 人 类 打分 的 相关 性 ; 外 在 标 
准 词义 消 攻 任务 中 能 超过 已 有 的 无 监督 消 歧 系统 。 

实验 使 用 了 SogouT 互联 网 语料库 中 作为 训练 语料库 。SogouT 共 包 含 来 自 互 联网 各 
种 类 型 的 1.3 亿 个 原始 网 页 ， 大 小 超过 5TB。 首 先 预 处 理 去 掉 网 页 内 的 噪声 内 容 ， 如 标 
签 、 链 接 、 脚 本 等 ， 得 到 纯 中 文 网 页 正文 152.8GB， 共 计 超 过 19 亿 个 句子 、554 亿 个 字 
FT, HPF (DERA) 超过 478 亿 个 。 句子 去 重 后 得 到 7 亿 个 不 同 的 句子 、256 亿 个 
字符 , 其 中 汉字 (不 含 标点 )221 亿 个 , 大 小 为 7 ?GB。 然后 使 用 THULAC% 对 语 料 进 行 自 
动 分 词 和 词性 标注 。 

@ http://www.sogou.com/labs/dl/t.html. 
@) THULAC(THU Lexical Analyzer for Chinese) 是 由 清华 大 学 自然 语言 处 理 与 社会 人 文 计 算 实验 室 研 制 的 


一 套 中 文 词法 分 析 工 具 包 ， 对 开放 文本 具有 很 强 的 分 词 和 词性 标注 功能 ， 可 目 由 下 载 。 项 目 链接 为 http://thulac. 
thunlp.org. 
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我 们 使 用 知 网 2012 版 本 作为 义 原 和 义 项 词典 , 经 整理 后 , 共 含 103 843 个 中 文 词 、 
128 578 个 义 项 、2 157 个 义 原 。 在 实验 中 , 词 、 义 项 和 义 原 的 向 量 维度 均 设置 为 200。 


1. 词 相 似 度 任务 


本 任务 采用 了 公开 数据 集 Wordsim240。 这 一 数据 集 包含 240 个 词 对 , 每 一 个 词 对 都 
赋 以 10 个 人 工 相 似 度 打分 (打分 范围 为 0~10)。 在 实验 中 , 两 个 词 (wi, w) 之 间 基 于 词 
问 量 的 相似 度 计 算 方 法 如 下 : 


TL] Tht 


Sim(wi,w;) = ETT > >》 COS(Wik, ; W jk ) (5.6) 
ey 
表 5.1 给 出 了 各 模型 得 到 的 词 相似 度 与 人 工 打分 的 相关 系数 。 其 中 CBOW130 、Skip- 
gramll30 和 GloVell53 模型 作为 基线 模型 。 


表 5.1 不同 模 型 在 Wordsim240 词 相 似 度 数据 集 上 的 评测 结果 


模型 与 人 工 打 分 的 相关 系数 x100 
CBOW 55.85 
Skip-gram 53.42 
GloVe 48.22 
义 项 不 敏感 (遍历 的 训练 集 为 知 网 词 表 ) 56.93 
义 项 不 敏感 (遍历 的 训练 集 为 语料库 ) 57.48 
义 项 敏感 ( 遇 历 的 训练 集 为 语料库 ) 57.03 
实验 结果 初步 显示 : 


(1) 即使 在 “ 义 项 不 敏感 (遍历 的 训练 集 为 HowNet 词典 )” 的 配置 下 , 我 们 模型 的 
效果 也 比 所 有 的 基线 模型 (CBOW、Skip-gram 和 GloVe) 要 好 。 分 析 其 原因 ,我 们 发 现 : 
通过 义 原 同 量 来 预测 词 癌 量 的 做 法 对 于 较 高 频 词 并 没有 明显 的 提升 效果 , 因为 这 些 词 在 
基线 模型 中 已经 得 到 了 非常 充分 的 训练 , 但 是 对 于 较 低频 词 , 我 们 的 模型 能 够 通过 对 应 
义 原 在 较 高 频 词 中 的 训练 来 提升 较 低 频 词 的 向 量 质量 ， 从 而 使 整体 结果 更 好 。 

(2) 在 “ 义 项 不 敏感 (遍历 的 训练 集 为 语料库 )” 的 配置 下 ,大 规模 语料库 上 的 训练 
使 词 的 更 新 次 数 正比 于 其 出 现 的 频 度 , 这 导致 蜗 频 词 对 应 的 义 原 得 到 更 充分 的 训练 ， 因 
此 实验 效果 得 以 进一步 提升 。 

(3) 在 “ 义 项 敏感 ( 壳 历 的 训练 集 为 语料库 ) ”的 配置 下 , 这 种 理论 上 更 “精致 ”的 模 
型 并 未 如 愿 取得 比 (2) 更 好 的 实验 效果 。 
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2， 词 义 消暑 任务 


我 们 从 SemEval2007 中 文 词义 消 歧 任 务 的 公开 数据 集中 选取 了 6 个 词 (“把 握 ”“ 材 
料 ”“ 老 ”“ 没 有 ”“ 突 出 ”和 “研究 ”) 的 96 个 实例 作为 测试 集 ， 以 测试 义 项 向 量 的 表 
现 。 我 们 采用 了 随机 选择 义 项 、 朴 素 Bayes 分 类 [199] 和 PageRank!!94] (该 方法 首先 根据 
知 网 中 义 原 的 树 状 结构 来 构建 一 个 图 , 然后 在 这 个 图 上 运行 PageRank 算法 得 到 最 终 的 
消 歧 结果 ) 作为 基线 模型 。 不 同 模 型 在 SemEval2007 中 文 词义 消 歧 数 据 集 上 的 评测 结果 
如 表 5.2 所 示 。 


表 5.2 不同 模型 在 SemEval 2007 中 文 词 义 消 导数 据 集 上 的 评测 结果 


模型 平均 准确 率 
随机 选择 义 项 0.24 
朴素 Bayes 0.44 
PageRank 0.54 
义 项 不 敏感 AVIA A HowNet 词典 ) 0.56 
义 项 不 敏感 ( 志 历 的 训练 集 为 语料库 ) 0.57 
义 项 敏感 (遍历 的 训练 集 为 语料库 ) 0.58 


实验 结果 初步 显示 : 

(1) 我 们 提出 的 各 个 模型 都 比 基 线 模型 的 效果 要 好 。 

(2) 与 词 相似 度 任务 的 情况 略 有 不 同 “ 义 项 敏感 ( 遇 历 的 训练 集 为 语料库 ) ”配置 取 
得 了 比 “ 义 项 不 敏感 ( 遇 历 的 训练 集 为 语料库 ) ” 稍 好 一 些 的 实验 效果 。 


3. 案例 分 析 


由 于 我 们 的 模型 生成 的 义 原 、 义 项 和 词 回 量 属于 同一 个 语义 空间 ,因此 我 们 可 以 同 
时 对 三 者 进行 最 近邻 分 析 〈 仍 使 用 余弦 相似 度 ) 。 义 项 向 量 和 义 原 向 量 的 最 近邻 词 示 例 
如 表 5.3 所 示 , 可 以 看 出 , 所 生成 的 义 项 向 量 和 义 原 向 量具 有 一 定 的 合理 性 。 

义 原 向 量 之 间 最 近邻 示例 如 表 5.4 所 示 。 可 以 发 现 , 我们 的 模型 学 到 的 义 原 向 量 满 
足 语义 相关 性 。 

最 后 我 们 观察 给 定 词 , 尤其 是 较 低频 词 的 最 近邻 词 ， 其 中 我 们 使 用 义 项 癌 量 的 平均 
向 量 来 替换 低频 词 的 词 向 量 。 K 5.5 显示 , 经 典 的 CBOW 模型 对 于 这 些 词 的 训练 效果 并 
不 好 , 而 我 们 的 模型 通过 义 原 同 量 可 以 有 效 捕捉 到 低频 词 的 语义 (其 中 “ 匡 座 ” 一 例 最 为 
典型 )。 


表 5.3” 义 项 向 量 和 义 原 向 量 的 最 近邻 词 示例 
义 项 或 义 原 最 近邻 词 


LAK ( 义 项 1) 责任 , BSR, 义不容辞, Bi, FLA 
duty 一 责任 责任 , RRR, LAA, BH, FLAT 
LAK ( 义 项 2) 纸 卷 , BS, 纸箱 , 包装 , 油纸 
physical 一 物质 Ekik, HAS. 电导 率 , 基态 , 表征 
wrap 一 包扎 捆扎 , 塑料 纸 , 布 条 , BRAK, FIT 
AK ( 义 项 3) FFT, AS. BAAR. 捆扎 ， 油 布 
tool 一 用 只 HNN, AAT. BOP, 放置 , Ges 
wrap 一 包扎 TAIL, 塑料 纸 , 布 条 , 包装 纸 , FEIT 
R54 义 原 向 量 之 间 最 近邻 示例 
义 原 最 近邻 的 义 原 
duty 一 责任 bear 一 承担 ,effortful 一 费力 , GoodSocial 一 好 风气 , affairs 一 事务 , trusty 一 可 信 
physical 一 物质 artifact 一 人 工 物 , entity 一 实体 , thing 一 万 物 , animate 一 生物 ,inanimate 一 无 生命 
tool- 一 用 具 implement 一 器 具 , shape 一 物 形 ,fittings 一 配件 ，decorate 一 装饰 ,mark 一 标志 
wrap 一 包扎 fold 一 折合 ,twine 一 打 结 ，weave 一 编 疼 ，bend 一 折 弯 ，straighten- 一 拉 直 
5.5 低频 词 的 最 近邻 词 示例 
tal 词 频 CBOW 给 出 的 最 近邻 词 我 们 的 模型 给 出 的 最 近邻 词 
EA 95 AAFC. RELA MAH KIN RARR RE 
二 赖 子 51 BARH. TRAVEL. ER ABH. FIRMA. E 
Es 10 ae. HA. Ae EIR WIE. HR 


5.3.3 h2 


本 节 介 绍 了 两 个 义 原 同 量 的 表示 学 习 模 型 ， FFL Sd TF SC Td OR 
词 同 量 和 义 项 癌 量 。 通过 在 词 相 似 度 和 词义 消 疏 任务 上 进行 评测 , 我 们 发现 这 两 个 模型 
相 比 于 经 典 的 词 表示 学 习 模 型 和 词义 消 皮 模型 有 明显 的 性 能 提升 。 这 一 结果 说 明了 义 原 
知识 在 提升 词 癌 量 学 习 效 果 方 面 的 有 效 性 。 男 外 , 在 案例 分 析 中 , 我 们 利用 词 、 义 项 、 义 
原 的 最 近邻 的 几 个 例子 , 说 明 这 两 个 模型 学 到 的 词 辣 量 、 义 项 癌 量 和 义 原 问 量 都 满足 较 
好 的 语义 相关 性 。 
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5.4 基于 义 原 的 词 表示 学 习 


本 节 介 绍 使 用 义 原 编码 的 词 表 示 学 习 (Sememe-Encoded Word Representation Learn- 
ing, SE-WRL) 模型 , 它 使 用 义 原 信息 来 增强 词 表示 学 习 的 效果 , 同时 可 以 得 到 义 原 癌 量 
Al XD ale. FA 5.3 节 介 绍 的 模型 不 同 的 是 ， 这 个 模型 中 的 义 原 信息 会 直接 在 词 同 量 的 
训练 过 程 中 起 作用 ， 即 词 同 量 的 更 新 会 受到 义 原 信息 的 影响 。 因 此 ， 义 原 知 识 将 会 锐 注 
入 到 所 有 的 词 问 量 中 ,提升 整体 的 词 回 量 效果 ， 而 不 仅仅 是 低频 词 。 


5.4.1 算法 模型 


下 面 首 先 介绍 一 些 后 面 将 用 到 的 一 些 记号 。X、5 和 W 分 别 代 表 所 有 的 义 原 集合 、 
义 项 集合 和 词 集合 。 对 于 任意 we W, 可 能 有 多 个 义 项 se SM, 其 中 s™ 表示 词 w 
的 义 项 集合 。 每 个 s” 都 由 多 个 义 原 oS) AR, ch) e XI)。 对 于 一 段 词 序列 文本 ,ww 
是 其 中 的 目标 词 , C(w) 表示 它 的 上 下 文 词 集合 。 


1. 传统 的 Skip-gram 模型 


SE-WRL 模型 直接 利用 了 广泛 使 用 的 Skip-gram 模型 027。 标准 的 Skip-gram 模型 假 
设 词 艇 入 与 上 下 文 词语 有 关 ， 冉 在 在 给 定 目 标 词 的 情况 下 最 大 化 上 下 文 词 的 预测 概率 。 
形式 上 ， 它 使 用 一 个 滑动 窗 口 来 选择 上 下 文 词 集 。 对 于 一 | 词语 序列 H — {wy, ° C ;Wn}s 
Skip-gram 模型 自在 最 大 化 
n-K 
L(H) = > log P(wi-k,++* , Wi+K | Wi) (5.7) 
i=K 
其 中 , K 是 滑动 窗口 的 大 小 ，P(wi_k,… ,witk | wi) 表示 在 给 定 目标 词 w 的 条 件 下 上 
下 文 词 的 预测 概率 ,其 由 一 个 Softmax 男 数 计算 而 得 : 
P(wi_-k,*** , Witk | Wi) = I] P(we | wi) 


weEC(wi) 
exp( - wi) (5.8) 
weEC(wi) > exp(we - wi) 
w EW 
其 中 , w 和 w; 分 别 表 示 上 和 下文 词 wo € C(w;) 和 目标 词 w WIRA, 我 们 使 用 Mikolov 
等 人 [127] 提出 的 层次 Softmax 和 负 采 样 策略 来 加 速 计算 。 
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接 下 来 依次 介绍 3 种 不 同 的 利用 义 原 信息 的 词 表示 学 习 模 型 ， 包 括 简 单 义 原 聚合 
(Simple Sememe Aggregation, SSA) 模型 、 义 原 上 下 文 注 意 力 (Sememe Attention over 
Context, SAC) 模型 和 义 原 目 标 词 注意 力 (Sememe Attention over Target, SAT) 模型 。 

1) 简单 义 原 聚合 模型 

简单 义 原 聚合 模型 是 一 个 基于 Skip-gram 模型 的 比较 简单 和 直接 的 模型 。 它 考虑 目 
标 词 的 所 有 义 项 的 所 有 义 原 , 用 这 些 义 原 问 量 的 平均 来 作为 目标 词 的 词 辐 量 , 形式 如 下 : 

w 一 -一 ` gi” (5.9) 
se gi) Dex 
即 词 w 的 词 回 量 由 组 成 它 的 所 有 义 原 的 义 原 回 量 的 平均 值 来 表示 。 其 中 ,mu 代表 属于 
词 w 的 所 有 义 原 的 数量 。 

这 个 模型 很 简单 , 它 依据 于 假设 : 词语 的 语义 是 由 它 的 语义 单元 ( 即 义 原 ) 组 成 的 。 
因此 , 词 癌 量 也 应 该 由 其 所 有 义 原 向 量 加 性 得 到 。 

2) 义 原 上 下 文 注意 力 模 型 

简单 义 原 聚合 模型 通过 用 聚合 的 义 原 典 入 代替 目标 词 甬 入 来 把 义 原 信息 编码 到 词 表 
示 学 习 中 。 然 而 在 这 种 方法 中 , 不 同上 下 文 语 境 中 的 每 个 词 仍 然 上 只 有 一 个 单一 的 表示 , 难 
以 处 理 多 义 词 的 情况 。 直观 上 讲 , 我 们 应 该 根据 特定 的 上 下 文 , 为 目标 词 构建 不 同 的 榴 
A, 同时 可 以 利用 知 网 中 的 词义 标注 。 

为 了 解决 这 个 问题 , 我 们 提出 了 义 原 上 下 文 注意 力 模 型 。 义 原 上 下 文 注意 力 模 型 利 
用 注意 力 机 制 , 根据 特定 的 目标 词 , 自动 地 为 上 下 文 词语 选择 合适 的 义 项 。 也 就 是 说 , 义 
原 上 下 文 注意 力 模 型 对 上 下 文 词语 进行 词义 消 歧 ， 以 便 更 好 地 表示 目标 词 。 义 原 上 下 文 
注意 力 模 型 的 结构 如 图 5.3 所 示 。 


图 5.3 义 原 上 下 文 注意 力 模 型 的 结构 
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更 具体 地 说 ， 对 于 目标 词 w, 我 们 使 用 它 的 原始 词 骨 入 来 表示 ; 对 于 上 下 文 词 we， 
我 们 不 使 用 它 的 原始 词 嵌 入 ,而 使 用 义 原 借入 来 表示 。 假 设 一 个 词 在 一 个 句子 中 通常 表 
现 出 一 个 词义 ,我 们 就 用 目标 词 髓 入 计算 一 个 注意 力 分 数 , 在 这 个 上 下 文 词语 的 多 个 义 
项 中 , PERE MW, AMBRE RRA. EP MRA w 由 以 下 公式 计算 
而 得 : 


|gtwe) | 
We = `S att(s\"”°?) giv) (5.10) 


其 中 , s0) 表示 we 的 第 ; 个 义 项 的 嵌入 ,而 att(s') 表示 we 的 第 j 个 义 项 对 于 目标 
词 w 的 注意 力 分 数 , 它 通过 以 下 公式 计算 而 得 : 


exp(w - Ji )) 


att(s\”) = Ta (5.11) 
` exp(w - give) 
k=1 
注意 到 ， 当 计算 注意 力 时 , 我 们 使 用 义 原 嵌入 的 平均 值 来 表示 义 项 8: 
[Ke | 
giv) — —___ ge?) (5.12) 
me A 


注意 力 方 法 的 假设 是 : 在 建 六 上 下 文 词 租 入 时 ， E PSC MOKA H trial ik 
入 w 越 相 关 , 那么 这 个 义 项 越 应 该 被 考虑 。 随 着 注意 力 机 制 的 引入 , 我 们 可 把 每 一 个 上 
下 文 词语 看 作 它 在 各 个 义 项 上 的 分 布 。 这 种 方法 可 以 被 认为 是 一 种 软 词义 消 卜 方法 。 根 
据 实验 结果 ， 这 个 方法 也 可 以 学 到 更 好 的 词 表 示 。 

3) 义 原 目标 词 注意 力 模型 

义 原 上 下 文 注意 力 模 型 可 以 根据 目标 词 , 灵活 地 为 上 下 文 词语 选择 合适 的 义 项 。 这 
个 过 程 也 可 以 用 于 为 目标 词 选择 合适 的 义 项 。 因此 , 我 们 提出 了 义 原 目标 词 注 意 力 模 型 ， 
如 图 5.4 所 示 。 

与 义 原 上 下 文 注意 力 模 型 不 同 的 是 , 对 于 上 下 文 词语 we 我 们 使 用 它 的 原始 词 艇 入 
来 表示 ; 对 于 目标 词 w, 我 们 不 使 用 它 的 原 怒 词 艇 入 ,而 是 使 用 注意 力 加 权 的 义 项 散 入 
之 和 来 表示 。 我 们 使 用 上 下 文 词语 来 计算 一 个 注意 力 分 数 , 在 这 个 目标 词 w 的 多 个 义 项 
上 进行 加 权 ， 从 而 构建 w ARRA, 公式 如 下 : 

g] 


w = ` att(s‘”) p (5.13) 
j=1 
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at ta 


atts 


5.4 义 原 目 标 词 注意 力 模型 


Hp, so) 表示 词 w 的 第 ; 个 义 项 嵌入 ,同时 基于 上 下 文 的 注意 力 分 数 定义 为 
att(s\””) 


exp(w’, - p~ ) 
js 


k=1 


> exp(w, - Sk”) 


(5.14) 


j 1 


k=i+K' 


c 9K 


与 公式 (5.12) 相似 的 是 , BOAT TE AE SC AA EES ER Se MRA eae 其 
中 , w, 是 上 下 文 词 艇 入 ， 由 Clw) 中 的 词 艇 入 的 平均 值 表示 ， 即 


> we kFi 
k=t—K' 
近 的 上 下 文 词 , 所 以 我 们 选择 一 个 比 K 更 小 的 K'。 


注意 到 ， 因 为 在 实验 中 ,我 们 发 现 对 于 目标 词语 的 义 项 选择 , 仅仅 是 更 多 依赖 于 更 


(5.15) 
问 想 一 下 , 义 原 上 下 文 注 意 力 模型 仅 使 用 一 个 目标 词 作为 注意 力 机 制 的 来 源 来 选择 
上 下 文 词 的 义 项 , 但 是 义 原 目标 词 注意 力 模型 使 用 多 个 上 下 文 词 作为 注意 力 来 源 来 选择 
产生 更 准确 的 词 和 义 项 表示 , 这 将 在 实验 中 进行 证 明 。 


目标 词 的 合适 义 项 。 因此, 可 以 预计 义 原 目 标 词 注意 力 模 型 将 进行 更 可 靠 的 词义 消 歧 并 
5.4.2 ”实验 分 析 


FEARS A, 我 们 将 评估 以 上 介绍 的 3 个 不 同 的 SE-WRL 模型 在 词 相似 度 计 算 任 务 和 


词类 比 任务 上 的 有 效 性 ,这 两 个 任务 是 词 回 量 评测 的 经 典 任务 。 此 外 , 我 们 还 通过 案例 
研究 探讨 了 我 们 的 模型 在 词义 消 卜 方 面 的 潜力 , 展示 了 我 们 基于 注意 力 的 模型 的 能 力 。 
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1. 数据 集 


该 实验 使 用 了 SogouT 语 料 作为 训练 文本 ， 以 及 知 网 中 词 的 义 项 和 义 原 标注 。 经 统 
计 , 知 网 中 每 个 词 的 平均 义 原 数 大 约 是 2.4, 每 个 义 项 的 平均 义 原 数 大 约 是 1.6。 而 SogouT 
语 料 中 42.2% 的 词 为 多 义 词 ， 这 说 明 词 义 消 歧 的 重要 性 。 人 至 于 评测 数据 集 ， 我 们 选择 
Wordsim 240 和 Wordsim 2979 来 评测 词 相 似 度 计 算 的 性 能 。 这 两 个 数据 集 都 包含 经 常 
使 用 的 中 文 词 对 , 以 及 人 工 标 注 的 相似 度 得 分 。 实 验 采 用 Chen 等 人 199) 提出 的 中 文 词类 
比 数据 集 来 评价 模型 表现 , 例如 , w(“king”) — w(“man”) = w(“queen”) — w(“woman”). 


2. 实验 设 定 


实验 选择 了 3 种 经 典 的 词 表示 学 习 模型 作为 基线 模型 ， 包括 Skip-gram、CBOW 和 
GloVe. 此外, 我 们 还 提出 了 另 一 种 模型 —MST (Maximum Selection over Target, MST), 
以 供 和 Chen 等 人 84 的 结果 进一步 比较 。 它 只 使 用 根据 上 下 文 最 可 能 的 义 项 的 媒 入 作 
为 词 嵌 入 ， 而 不 是 类 似 SAT 模型 那样 把 一 个 词 视 为 在 所 有 的 义 项 中 的 分 布 。 

为 了 公平 地 比较 , 我 们 用 相同 的 实验 设置 和 它们 的 最 佳 参 数 来 训练 这 些 模 型 。 对 于 
参数 设置 ,我 们 将 上 下 文 窗口 大 小 K = 8 设 为 上 限 ， 在 训练 过 程 中 ,窗口 大 小 随机 从 
1~8 进行 动态 选择 。 我们 将 词 、 义 项 和 义 原 柑 入 的 维度 均 设 为 200。 对 于 学 习 速 率 , 初始 
值 为 0.025, EERIE PAE F hE. 我 们 将 负 采 样 数 设 为 25, eA 50, 也 就 是 
说 训练 集中 词 频 低 于 50 的 词 将 被 忽略 。 对 于 SAT FRAY, 我 们 设 K = 2。 

3. 词 相似 度 计 算 

词 相似 度 的 任务 通过 比较 词 表 示 学 习 模型 计算 的 词 对 相似 度 与 人 工 标注 的 词 对 相似 
度 来 评价 词 表 示 的 质量 。 

1) 评估 标准 

在 实验 中 ,我 们 选择 两 个 词 能 入 的 余弦 相似 度 来 排列 词 对 ,然后 计算 其 和 人 头 判 断 
等 级 之 间 的 斯 诺尔 曼 相 关系 数 。 


2) 实验 结果 
表 5.6 给 出 了 这 些 模型 的 词 相似 度 计算 的 评测 绪 果 。 
从 结果 可 以 看 出 : 


(1) SAT 模型 在 两 个 数据 集 上 都 优 于 其 他 模型 , 包括 所 有 基线 模型 。 这 说 明 , 通过 


(Dhttps:/ /github.com/Leonard-Xu/CWE /tree/master /data. 
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恰当 地 利用 义 原 标注 , 模型 可 以 更 好 地 捕捉 到 词 的 语义 关系 ,从 而 学习 到 更 准确 的 词 租 
ART o 
5.6 词 相似 度 计算 的 评测 结果 


模型 Wordsim 240 Wordsim 297 
CBOW 57.7 61.1 
GloVe 59.8 58.7 

Skip-gram 58.5 63.3 

SSA 08.9 64.0 

SAC 59.0 63.1 

MST 59.2 62.8 

SAT 63.2 65.6 


(2) SSA Æ HY HE Rem TERRE, PE HA OD fig AS ST J) tH as 
习 结 果 是 有 用 的 。 其 原因 是 具有 相同 义 原 的 词 会 相互 受益 。 特别 是 频率 较 低 的 单词 ， 由 
于 传统 的 WRL 模型 无 法 充分 学 习 , 仅 通 过 其 他 单词 对 其 义 原 骨 入 进行 充分 训练 就 能 从 
SSA 模型 中 获得 较 好 的 词 艇 入 。 

(3) SAT 模型 比 SSA 模型 和 SAC 模型 的 表现 要 好 得 多 。 这 说 明 SAT 模型 能 够 获得 
更 精确 的 义 项 分 布 ， 因 为 不 同 于 SAC 模型 只 使 用 一 个 目标 词 作为 词义 消 皮 的 注意 力 来 
Ua, SAT 模型 采用 了 更 丰富 的 上 下 文 信息 作为 注意 力 来 源 。 

(4) SAT 模型 比 MST 模型 更 有 效 ， 这 说 明 相 比 于 只 选择 一 个 最 可 能 的 义 项 ,注意 
FA AL te TR AY ERA A WA EAN eR. 因为 对 于 很 多 词 来 说 , 它们 的 各 种 义 项 
并 不 是 完全 不 同 , 而 是 有 一 些 共同 的 元 素 。 在 某 些 特 定 的 上 下 文中 , 单一 的 义 项 可 能 } 
不 能 表达 这 个 词 的 确切 意思 。 


4. 词类 比 


词类 比 推理 是 另 一 个 广泛 使 用 的 评估 词 向 量 的 任务 2, 

1) 评估 标准 

Chen 等 人 55 提出 的 数据 集 由 1 124 个 类 比 构成 ， 其 中 包含 3 种 类 比 类 型 : QH 
家 /首都 关系 ,， 有 677 个 类 群 ; @ ME (市 ) 关系 , 有 175 个 组 别 ; @ KERR, A 272 
组 。 给 定 一 个 类 比 组 词 (w, w, w, w) WRR YAA KIE ws — wi 十 ws 等 于 wo 
在 实验 中 , 一 般 假设 w 是 缺失 的 , 由 词 表示 学 习 模 型 根据 如 下 分 数 对 所 有 候选 词 进 行 排 
名 : 


R(w) = cos(w2 — w1 + w3, w) (5.16) 
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实验 中 通 弟 采用 两 个 评价 指标 : 
C1) 准确 度 。 对 于 每 个 类 比 组 , 词 表 示 学 习 模 型 会 选择 排名 最 高 的 词 w = argmaxw 
R(w), 4 w = wa 时 被 判定 为 正确 。 以 正确 样本 的 百分比 作为 该 模型 的 准确 度 评 分 。 
(2) 平均 排序 。 对 于 每 个 类 比 组 , 词 表示 学 习 模 型 将 根据 上 述 分 数 得 到 正确 词 wa 的 
排序 ,然后 使 用 所 有 正确 词 的 平均 排序 作为 评价 指标 。 
2) 实验 结果 
表 5.7 列 出 了 所 有 模型 在 词类 比 推理 实验 中 的 结果 。 


表 5.7 词类 比 推理 的 评测 结果 (准确 率 百 分 数 ) 


模型 准确 度 (%) 平均 排序 
首都 城市 Ap WE 全 部 首都 城市 A BE 全 部 
CBOW 49.8 85.7 86.0 64.2 36.98 1.23 62.64 37.62 
GloVe 57.3 74.3 81.6 65.8 19.09 1.71 3.58 12.63 
Skip-gram 66.8 93.7 76.8 73.4 137.19 1.07 2.95 83.51 
SSA 62.3 93.7 81.6 71.9 45.74 1.06 3.33 28.52 
SAC 61.6 95.4 77.9 70.8 19.08 1.02 2.18 12.18 
MST 65.7 95.4 82.7 74.5 50.29 1.05 2.48 31.05 
SAT 83.2 98.9 82.4 85.3 14.42 1.01 2.63 9.48 


从 表 5.7 中 , 我 们 可 以 看 出 : 

(1) SAT 模型 在 所 有 模型 中 表现 最 好 , 并 且 其 优越 性 大 于 其 在 词 相似 度 计算 上 的 优 
越 性 。 这 说 明 SAT 模型 增强 语义 空间 中 词 供 入 之 间 的 隐 式 关系 建 模 。 原 因 是 词 的 义 原 对 
这 些 词 的 关系 进行 了 编码 。 例 如 , 首都 和 证 巴 是 “哈瓦那 ”的 两 个 义 原 , 在 “古巴 ”和 “ 哈 
瓦 那 ”之 间 提 供 了 明确 的 语义 关系 。 

(2) SAT 模型 在 首都 和 城市 这 两 个 类 别 中 都 表现 良好 ,因为 这 两 个 类 别 中 的 一 些 词 
的 词 频 都 很 低 ， 而 它们 的 义 原 出 现 的 次 数 较 多 ， 以 至 于 可 以 序 分 学 习 义 原 甬 入 。 有 了 这 
HE RRA, 这些 低频 词 可 以 通过 SAT 模型 更 有 效 地 学 习 。 

(3) 从 准确 度 看 , CBOW 似乎 比 SAT 更 有 效 。 而 对 于 平均 排序 , CBOW WARRE, 
说 明 在 家 庭 类 别 中 , CBOW 的 性 能 不 稳定 。 相 反 , 虽然 SAT 的 准确 度 略 低 于 CBOW, 但 
SAT 很 少 给 出 离谱 的 预测 。 在 大 多 数 错 误 中 ，SAT 模型 预测 的 词 是 “祖父 ”而 不 是 “ 祖 
母 ”， 这 并 不 是 完全 没有 意义 的 ， AA TERI, “SARE” “FASO” “人 租 母 ” 和 其 他 一 些 类 
似 的 词 有 4 个 共同 的 义 原 , 而 只 有 一 个 义 原 是 不 同 的 。 但 是 对 于 错误 的 CBOW 例子 , 我 


们 发 现 很 多 错误 都 是 关于 低频 率 的 单词 , 如 “ 继 女 ”, 只 出 现 了 358 次 。 考 虑 义 原 可 以 组 
解 这 一 问题 。 


5. 案例 研究 


以 上 实验 验证 了 基于 义 原 的 词 表 示 和 学 习 模 型 的 有 效 性 。 在 这 一 市 , 我 们 展示 了 一 些 
义 原 、 义 项 和 单词 的 例子 作为 进一步 分 析 。 

1) 词义 消 层 

为 了 证 明 义 原 注 意 力 的 有 效 性 , 我 们 在 训练 集中 选择 了 3 个 例子 , 如 表 5.8 所 示 。 在 
表 5.8 中 , 3 个 示例 的 第 一 行 是 每 个 词 的 词 - 义 项 - 义 原 结构 。 例如, 在 第 三 个 例子 中 ,“ 队 
fh.” 这 个 词 有 两 个 意思 , 即 contingent 和 troops; contingent 有 一 个 义 原 “团体 一 community?”， 
troops 有 一 个 义 原 “军队 一 army”。 这 3 个 例子 都 表明 , 我 们 的 模型 可 以 正确 估计 一 个 单 
词 在 给 定语 境 下 的 意义 分 布 。 


表 5.8 ”不同 语 境 中 义 原 、 意义 和 词 与 注意 力 机 制 结合 的 示例 
Word: 苹果 (“Apple brand/apple” ) 
sensel: Apple brand (computer, PatternValue, able, bring, SpeBrand) 


sense2: duct (fruit) 

RRA RP ERM (Apple is 

always famous as the king of fruits) 

苹果 电脑 无 法 正常 启动 (The Apple brand 
computer can not startup normally) 

Word: 扩散 (“proliferate/metastasize” ) 


sensel: proliferate (disperse) 


Apple brand: 0.28 apple: 0.72 


Apple brand: 0.87 apple: 0.13 


sense2: metastasize (disperse, disease) 
防止 疫情 扩散 (Prevent epidemic 

from metastasizing ) 

不 扩散 核武 器 条 约 (Treaty on the Non- 
Proliferation of Nuclear Weapons ) 


Word: 队伍 (“contingent /troops” ) 


proliferate: 0.06 metastasize: 0.94 


proliferate: 0.68 metastasize: 0.32 


sensel: contingent (community) 
sense2: troops (army) 
八 支 队伍 进入 第 二 阶段 团体 赛 (Eight 
contingents enter the second stage of team competition) 
公安 基层 队伍 组 织 建设 (Construct the 
contingent: 0.15 troops: 0.85 


organization of public security’s troops in grass-roots unit) 


contingent: 0.90 troops: 0.10 
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2) 上 下 文 词 对 注意 力 的 效果 

我 们 在 表 5.9 中 展示 了 上 下 文 词 对 于 注意 力 的 效果 。 词 “哈瓦那 (Havana) ”包含 4 
个 义 原 , 其 中 两 个 义 原 “ 首 都 一 capital” 和 “上 古巴 一 Cuba” 从 不 同方 面 描述 词 的 不 同属 性 。 
这 里 , 我 们 列 出 了 3 个 不 同 的 上 下 文 单词 , 即 “ 古 巴 (Cuba) ”、“ 俄 罗斯 Russia)” MS 
fii (cigar) ”。 以 词 “ 古 巴 (Cuba) ”为 例 , 两 个 义 原 都 有 很 高 权重 ,表明 它们 对 “哈瓦那 
(Havana) ”在 这 方面 的 意义 所 作 的 贡献 。 词 “俄罗斯 (Russia) ”和 义 原 “ 首 都 一 capital” 
BAK. SEP Mi ee “jh (cigar) ”时 , 义 原 “古巴 一 Cuba” 有 更 大 的 影响 , AAS 
训 是 古巴 着 名 的 特产 。 从 这 些 例 子 中 可 以 得 出 结论 , 我 们 的 义 原 注意 力 机 制 可 以 准确 地 
捕捉 到 复 淋 语 境 中 的 意义 。 


R59 ” 义 原 对 注意 力 计算 的 权重 


单词 TLE (Havana) 
义 原 “首都 一 capital” “古巴 一 Cuba” 
古巴 (Cuba) 0.39 0.42 
俄罗斯 (Russia) 0.39 —0.09 
雪茄 (cigar) 0.00 0.36 


5.4.3 小结 


本 下 提出 了 3 个 利用 义 原 信息 建 模 从 而 学 习 到 更 好 的 词 表示 的 模型 。 AM, 我 
们 利用 义 原 信息 来 表示 每 个 词 的 多 种 义 项 , 并 且 提 出 采用 义 原 注意 力 机 制 基于 上 下 文 日 
动 选择 合适 的 义 项 。 我 们 在 词 相似 度 和 词类 比 任 务 上 对 模型 进行 了 评估 ， 结 果 显 示 义 
原 编码 的 词 表 示 学 习 模 型 有 很 好 的 效果 。 我 们 也 分 析 了 部 分 词义 消 靶 和 词 表 示 学 习 的 案 
Bl, 这 让 我 们 确信 在 引入 义 原 注音 力 机 制 的 情况 下 , 模型 能 够 很 好 地 选择 合适 的 义 项 。 


5.5 “本章 总 结 


本 章 介绍 了 两 关 不 同 的 方法 来 学 习 在 一 个 语义 衬 间 中 的 义 原 、 义 项 和 词 的 表示 。 瑟 
外 ,我 们 发 现 通过 引入 义 原 信息 , 词 问 量 的 学 习 歼 朱 也 得 到 了 明显 的 性 能 提升 。 尤 其 是 
第 二 种 方法 ,其 使 用 了 注意 力 机 制 ,， 能 够 较 好 地 捕捉 到 词 在 不 同 的 上 下 文中 所 表现 出 的 
不 同 的 义 项 。 

我 们 后 续 将 继续 探索 以 下 研究 方 问 : 
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C1) 知 网 中 的 义 原 信息 是 通过 层次 结构 和 关系 进行 标注 的 , 而 这 些 信息 并 没有 用 在 
模型 之 中 , 我 们 将 探索 利用 这 些 标注 来 学 习 更 好 的 词语 表示 。 


(2) 本 章 的 两 个 工作 都 是 基于 中 文 进行 的 ,我们 相信 义 原 的 观点 是 普 过 的 , 在 其 他 
语言 中 也 可 以 很 好 地 发 挥 作用 , 因此 我 们 将 探索 词 表 示 学 习 中 义 原 信息 在 其 他 语言 中 的 
有 效 性 。 

我 们 相信 这 些 进一步 的 研究 能 够 市 来 更 好 的 义 原 、 义 项 和 词 的 表示 , 禾 盖 它们 背后 
丰富 的 语言 知识 。 


第 © % 
语言 知识 的 自动 获取 


6.1 章节 引言 


在 第 5 章 中 , 我 们 引入 了 语言 知识 图 谐 ， 并 且 依 托 知 网 中 的 义 原 信息 ， 在 更 细 粒 度 
的 层面 上 面 进行 了 语义 表示 。 而 现 有 的 像 知 网 这 样 的 语言 知识 图 谐 面临 以 下 两 大 挑战 。 

(1) 随 看 通信 技术 的 发 展 , 新 单词 和 短语 不 断 涌现 , 已 有 义 原 标注 的 词 和 短语 的 语 
义 也 在 不 断 地 演变 。 在 这 种 情况 下 , 对 语言 知识 图 谱 进 行 持续 的 手工 标注 和 更 新 变 得 更 
加 不 堪 重 负 。 此 外 , 由 于 义 原 和 单词 含义 的 高 度 复 杂 性 ， 当 专家 协作 为 词语 标注 义 原 时 ， 
保持 专家 之 间 的 标注 一 致 性 也 是 具有 挑战 性 的 。 

(2) 大 多 数 语 言 没有 像 知 网 这 样 的 基于 义 原 的 语言 知识 图 谱 , 这 在 很 大 程度 上 阻碍 
了 我 们 对 人 类 语言 的 理解 和 利用 。 因 此 , 为 特定 语言 构 建 基 于 义 原 的 语言 知识 图 谱 是 非 
第 重要 的 。 

针对 上 面 的 挑战 , 我 们 提出 基于 义 原 的 语言 知识 图 谱 的 目 动 化 构建 方法 , 主要 通过 
词汇 义 原 的 目 动 预 测 和 跨 语 诗词 汇 义 原 目 动 预 测 两 个 任务 来 辅助 专家 进行 义 原 标注 , 进 
而 达到 提高 效率 、 减 少 工作 量 的 目的 。 这 些 研 究 主 要 在 以 下 两 个 方面 进行 了 深入 与 展开 。 

CL) 引入 协同 过 滤 与 矩阵 分 解 等 算法 , 构建 针对 单 语义 原 的 日 动 预 测 方法 。 针对 中 
文 的 特殊 性 质 , 提出 融入 中 文 文字 信息 的 义 原 预测 方法 。 

(2) 在 单 语 义 原 的 基础 上 , 我 们 提出 跨 语言 词汇 的 义 原 预 测 任务 , 则 在 帮助 语言 学 
家 从 现 有 的 义 原 知识 图 谐 出 发 ,更 高 效 地 为 其 他 语言 建立 语言 知识 图 谐 。 

人 不管 是 单 语词 的 义 原 预 测 还 是 路 语言 词 的 义 原 预测 , 我 们 部 仅 关注 词 和 义 原 之 间 的 
关系 。 为 简单 起 见 ， 我 们 忽略 了 词 的 义 项 及 义 原 的 层次 化 结构 ,将 一 个 词 的 所 有 义 项 的 
所 有 义 原 构成 一 个 义 原 集 , 而 义 原 预 测 的 目的 则 是 为 目标 词 预 测 这 一 义 原 集合 。 
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6.2 ”相关 工作 


6.2.1 知识 图 谱 及 其 构建 


知识 图 谱 则 在 用 结构 化 的 形式 组 织 人 类 知识 , 在 人 工 智能 和 自然 语言 处 理 的 基础 场 
景 中 发 挥 越 来 越 重要 的 作用 。 当 前 知识 图 谱 构建 依赖 于 手工 63、 上 自动 提取 l ATF 
估 88) 、 自 动 补 全 和 对 齐 (119,194,241) 等 多 种 方法 建立 、 验 证 和 丰富 内 容 。 词 网 438 和 Ba- 
belNet 146| 是 语言 知识 图 谱 的 代表 , 意思 相近 的 词 通过 分 组 以 形成 词 库 445。 而 义 原 知 
识 图 谱 与 大 部 分 知识 图 谱 结构 不 同 , 知 网 作为 典型 义 原 知识 图 谱 ， 其 构建 方式 主要 为 人 
THEO, 


6.2.2 FMEA NLP 


子 词 和 字 级 NLP 建 模 词 的 内 部 信息 , 特别 有 助 于 解决 超出 词 表 范 围 COOV) 问题 。 
形态 学 是 子 词 级 NLP 的 典型 研究 领域 , 许多 NLP 应 用 广汉 考虑 了 子 词 级 NLP 方法 , 如 
关键 词 定 位 [144] 、 分 析 [180] 、 机 器 翻译 BU 、 语音 识别 [43] 和 范式 补 全 [6,35,41,192,207,224] | 子 
词 信息 有 利于 罕见 词 的 建 模 ,并 可 以 提高 那些 应 用 了 词 问 量 的 NLP 任务 的 性 能 。 此 外 ， 
人 们 还 考虑 了 字 的 嵌入 ,这 在 汉语 词 分 割 中 已 经 得 到 应 用 “8 。 这 些 工 作 的 成 功 证 明了 
利用 词 的 内 部 字 信 息 的 可 行 性 。 


6.2.3 “” 词 表 示 学 习 及 路 语言 的 词 表 示 学 习 


本 章 要 介绍 的 义 原 预测 模型 采用 了 词 表示 学 习 (WRL) 的 结果 。 近年 来 , 词 表 示 学 习 
取得 了 很 大 的 进展 。 一 些 经 典 的 词 表示 学 习 模 型 (如 Skip-gram. CBOW L134 和 GloVe [459! ) 
非常 受 欢迎 , 在 许多 NLP 任务 中 取得 章 越 的 性 能 。 然 而 , 绝 大 多 数 的 词 表 示 学 习 方法 是 
从 大 型 语料库 中 学 习 词 的 分 布 信息 的 ， 而 忽略 了 语义 词典 包含 的 有 价值 的 信息 。 因 此 ， 
一 些 工作 试图 将 知识 图 谱 中 的 语义 信息 注入 WRL 中 [16,53,121,143) | SRT, 这些 工作 都 是 
基于 词 知 识 图 谱 ， 如 词 网 , 很 少 有 工作 关注 如 何 融 入 义 原 知识 。 

也 有 很 多 关于 跨 语 言词 表示 学 习 的 研究 8319), 由 在 学 习 在 同一 语义 空间 的 多 语言 
词 的 表示 。 它 们 中 的 大 多 数 需 要 平行 语料库 蕊 和 2,64,76,105,127,242]。 有些 采用 无 监 


D 知 网 的 构建 花费 了 十 几 年 的 时 间 ，。 
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督 或 弱 监 督 的 方法 32458499。 也 有 一 些 工作 使 用 种 子 词 典 作为 跨 语 言 
信号 [1,46,50,54,64,107,126,182,198,206|] ` 

在 本 章 要 介绍 的 跨 语 言 义 原 预测 任务 中 , 基于 平行 语 料 的 双语 词 表 示 学 习 方 法 是 不 
合适 的 , 因为 大 多 数 语言 对 没有 大 的 平行 语料库 。 此 外 , 非 监督 方法 也 不 合适 , 因为 它们 
通 利 很 难 学 习 融 质 量 的 双语 词 站 量 。 因 此 , 我 们 选择 种 子 词典 方法 , 并 进一步 引入 Zhang 
等 人 P84) 提出 的 匹配 机 制 来 提高 其 性 能 。 


6.3 ”基于 协同 过 滤 和 甜 阵 分 解 的 义 原 预测 


本 节 主 要 介绍 两 种 单 语词 义 原 自动 预测 方法 , 均 受 启发 于 推荐 系统 的 相关 工作 , 第 
一 种 方法 (SPWE) 是 基于 协同 过 滤 的 方法 ,第 二 种 方法 (SPSE) 则 是 基于 矩阵 分 解 的 广 
法 。 类 比 于 推荐 系统 , 所 有 的 词 相当 于 “用户”, 而 义 原则 相当 于 “商品 "， 某 个 词 被 标注 
若干 义 原 可 以 视 为 该 “用 户 ” 购买 了 若干 “商品 "， 而 义 原 推荐 的 目的 则 是 为 未 购买 任何 
“商品 ”的 用 户 推荐 可 能 喜欢 的 “商品 ”。 


6.3.1 ”算法 模型 


在 这 一 小 节 中 , 我 们 依次 介绍 基于 词 骨 入 的 义 原 预测 CSPWE) . FEF SOR RA HY 
原 预 测 (SPSE) AIZEF RA SUR RA WK SURI (SPASE) 3 种 模型 。 最 后 , 我 们 用 集成 
学 习 的 方法 进一步 提高 实验 效 打 。 


1. 基于 词 能 入 的 义 原 预 测 


FEF tal PRA HY SZ Ja FOU (Sememe Prediction with Word Embeddings, SPWE) 从 未 标 
注 义 原 的 词 的 最 相似 的 词 入 手 , 基于 相似 的 词 应 该 有 相似 的 义 原 这 一 假设 。 这 个 想法 和 
推荐 系统 中 的 协同 过 滤 (collaborative filtering) 是 相似 的 。 

用 公式 来 表达 , 我 们 定义 一 个 词 w 对 应 的 义 原 的 评分 函数 P(s;,w) 为 

P(s;,w) = > cos(w, wi): Mij- c (6.1) 
wie W 

HER, cos(w,w;) 是 w 和 w; 的 词 问 量 余 弦 相 似 度 。M;; 代表 义 原 s; 对 词 wi 的 标注 情 
bi, Mi; = 1, 表示 词 wi 在 知 网 中 有 义 原 s; BURA. 评分 函数 P(s;,w) 的 值 越 高 , 词 
w 越 可 能 被 推荐 义 原 s;。 


第 6 章 i 
原 预测 产生 较 强 的 影响 。 


决 这 个 问题 , 我 们 为 每 个 词 w; 设 定 了 一 个 递减 的 置信 因子 or ri 是 词 相 似 度 cos(w, w) 
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与 经 典 的 推荐 系统 中 的 协同 过 小 不 同 , 我 们 在 为 新 词 预 测 义 原 时 应 该 只 关注 与 之 最 
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相似 的 词 , 因为 不 相关 的 词 有 完全 不 同 的 义 原 , 而 这 可 能 成 为 义 原 预测 中 的 噪声 。 为 了 解 


的 降序 ,ce (0,1) 是 一 个 超 参 数 。 用 这 种 方法 , 只 有 一 部 分 最 相关 的 词 才能 够 对 w 的 义 


E, 知 网 是 人 类 专家 仔细 标注 的 , 因此 词 - 义 原 和 矩阵 是 十 分 可 信 有 的 。 因 此, 我 们 能 够 应 用 
词 - 义 原 距 阵 根据 相似 词 来 推荐 可 徘 的 义 原 。 


SPWE 模型 只 使 用 了 词 甬 入 来 衡量 词 之 间 的 相似 度 , 这 对 义 原 预测 来 说 是 既 简 单 又 
有 效 的 。 这 是 因为 与 大 多 数 推荐 系统 中 的 噪声 和 不 完全 的 用 户 -商品 (user-item) ABBE AN 
2. 基于 义 原 散 入 的 义 原 预测 


SPWE 模型 基于 一 个 词 的 义 原 能 够 根据 与 这 个 词 相似 的 词 的 义 原 来 进行 预测 。 但 是 ， 
这 样 做 仪 仅 把 义 原 考虑 为 离散 的 标签 , 而 忽略 了 义 原 之 间 潜 在 的 联系 。 为 了 把 义 原 与 义 
原 之 间 法 在 的 联系 纳入 考虑 范畴 ， 我们 提出 了 基于 义 原 散 入 的 义 原 预 测 (Sememe Pre- 
diction with Sememe Embeddings, SPSE), 它 能 够 把 词 和 义 原 同时 投影 到 相同 的 语义 宇 
间 中 ,同时 根据 知 网 中 的 词 和 义 原 的 共 现 窍 阵 学 习 义 原 甬 入 。 
受 GloVe [153] 中 分 解 词 与 词 的 共 现 矩 阵 来 学 习 词 甬 入 的 方法 局 发 ,我 们 通过 同时 分 
解 词 - 义 原 矩阵 和 义 原 - 义 原 矩阵 来 学 习 义 原 借 入 。 这 两 个 矩阵 都 是 根据 知 网 建立 的 。 至 
FwlikA, 与 SPWE 相似 , 我 们 使 用 经 过 大 型 文本 预 训练 的 词 朋 入 ， 并 在 分 解 词 - 义 原 
矩 阵 的 过 程 中 将 其 固定 。 通 过 和 窍 阵 分 解 ， 我 们 能 够 把 义 原 和 词 通 入 编码 到 相同 的 低 维 语 
义 空间 中 , 并 通过 计算 词 和 义 原 散 入 的 余弦 相似 度 来 预测 义 原 。 


更 具体 地 , 我 们 能 够 从 知 网 提取 出 词 - 义 原 窍 阵 , € Mii; = 1, 则 表示 词 wi RAR sj 


需要 注意 的 是 , I PEC, 我 们 针对 每 个 义 原 将 会 得 到 两 个 独立 的 姐 入 , 分 别 用 
sls RRA. FY RRA AA BBM F : 
c y 


WiET siES 


标注 , 否则 Mi; = 0。 我 们 能 够 提取 一 个 义 原 - 义 原 矩 阵 C, Ci 表示 两 个 义 原 s; 和 sy 的 
KA, 它们 使 用 点 互信 息 (point-wise mutual information) 来 定义 , B Cj, = PMI(s;, sk)。 


(wi x (sj + §;) + b; + b; — Mi;)° 十 入 ` (sj x 5k 一 Cik) 


(6.2) 
Sj SkES 
其 中 , b; Alb; 为 偏 置 癌 量 。 ERR RARO AY PB od oP GT DY op AAEM M 和 C 的 损失 ， 


同时 用 超 参 数 SR dE AT AN BE NA SC J RAN HE Sa BE FB AN» SPSE 模 
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型 能 够 把 词 和 义 原 同时 编码 到 同一 个 语义 空间 。 

因为 在 知 网 中 每 个 词 基本 上 是 用 2~5 个 义 原 来 表示 的 ， 因 此 ， 词 - 义 原 矩阵 的 大 多 
数 元 聚 是 0。 如 有 朱 在 窍 阵 分 解 的 过 程 中 同等 对 街 所 有 的 0 TORR AE 0 元 素 , 则 总 体 效 果 
会 变 得 很 兰 。 为 了 解决 这 个 问题 ， 我们 对 0 UR ASE 0 元 素 采 用 不 同 的 分 解 策 上 略 。 对 于 
每 个 0 元 素 , 我 们 以 0.5% 的 概率 分 解 它们 。 但 是 对 于 非 0 元 素 , 我 们 总 是 对 其 分 解 。 在 
这 个 策略 的 帮助 下 , 我 们 能 够 更 加 关注 词义 原 对 。 

在 SPSE 模型 中 , 我 们 通过 在 同一 个 低 维 空间 中 分 解 矩 阵 学 习 到 了 义 原 暴 入 。 和 矩阵 
分 解 被 证 明 是 推荐 系统 中 十 分 有 效 的 推荐 方法 , 因为 它 能 够 准确 地 在 用 户 和 商品 之 间 建 
SKR., 而 且 该 模型 能 够 很 好 地 规避 用 户 -商品 矩阵 中 的 噪声 。 使 用 这 个 模型 ,我们 能 够 
灵活 地 计算 出 词 和 义 原 的 语义 联系 , 这 也 给 我 们 提供 了 一 种 有 效 的 工具 来 处 理 义 原 , 包 
括 但 不 局 限于 义 原 预 测 。 


3， 基 于 上 聚合 义 原 能 入 的 义 原 预测 


在 知 网 中 , 义 原 被 认为 是 词 的 原子 语义 。 受 义 原 特性 的 局 发 , 我 们 假设 词 艇 入 在 语义 
上 能 够 分 解 为 义 原 能 入 。 在 词 - 义 原 的 语义 空间 中 , 我 们 能 够 简单 地 实现 义 原 分 解 , 我们 
认为 每 个 词 骨 入 是 它 所 有 的 义 原 藤 入 的 和 。 根 据 这 个 假设 ,我们 提出 了 基于 聚合 义 原 藤 
入 的 义 原 了 预测 (Sememe Prediction with Aggregated Sememe Embeddings, SPASE ) 。SPASE 
也 是 基于 和 窍 阵 分 解 的 方法 , 与 之 前 相同 , 定义 为 


Ww; = ` Mi; x 8; (6.3) 
sj ES, 
A, Sy, 是 词 w NMRA. 并 且 My 代表 义 原 sj 对 词 wi WME. CREW 
FEM M 中 非 0 oR EAE. 为 了 学 习 义 原 艇 入 , RBA AB a KARE RE WwW N M 和 
ARRA s, 其 中 词 租 入 是 预先 训练 的 , 并且 会 在 训练 过 程 中 被 固定 ， 以 上 也 能 够 
表示 为 M=W xS. 
SPASE 的 页 献 在 于 它 利用 了 知 网 中 义 原 的 定义 : 义 原 是 词 的 语义 组 成 成 分 。 在 SPASE 
H, 每 个 义 原 被 认为 是 一 小 部 分 的 语义 单元 , 所 有 的 词 都 能 用 多 个 语义 单元 的 组 合 来 表 
示 , 也 就 是 说 , 义 原 组 成 了 一 个 有 意义 的 语义 单位 。 但 是 , 因为 词 砍 入 是 固定 的 , 并 且 词 
的 数量 比 义 原 的 数量 多 很 多 , SPASE 难以 训练 。 在 为 复杂 的 义 原 组 合 建立 模型 时 , SPASE 
的 效果 可 能 会 彼 义 原 租 入 有 限 的 参数 和 过 上 度 简 化 的 “直接 相 加 ”的 假设 限制 。 
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4. 基于 集成 学 习 方 法 的 义 原 预测 
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我 们 为 义 原 预测 提出 3 个 模型 , 包括 SPWE、SPSE 和 SPASE。SPWE 和 SPSE/S- 
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PASE 使 用 两 类 不 同 的 方法 , 并 且 有 不 同 的 特性 。SPWE EF Ob Ale, 考虑 了 词 之 间 的 

KA; 而 SPSE/SPASE 基于 矩阵 分 解 , 直接 考虑 了 词 和 义 原 之 间 的 关系 。 这 两 种 方法 是 
互补 的 ,可 以 使 用 集成 学 习 的 方法 将 其 整合 到 同一 个 模型 中 来 预测 义 原 。 


例如 , 在 SPSE/SPASE F, 所 有 表示 颜色 的 义 原 , 如 白色 和 昔 色 在 癌 量 空间 中 倾 问 于 
WFO FEA. SA RES” TSO AY. 所 有 表示 颜色 的 义 原 都 会 得 到 很 高 的 评分 ， 
BA EMA “RE” PRAIRIE, 这 显然 是 不 正确 的 。 相 反 , SPWE 能 够 很 好 地 
解决 这 类 问题 , 因为 它 能 够 学 习 词 语义 原 的 非 偏 的 标注 结构 。 我们 也 发 现 , SPSE/SPASE 


在 处 理 有 独特 义 原 的 词 时 效果 更 好 , 而 SPWE 在 处 理 复 杂 的 义 原 时 表现 更 好 。 这 里 , 我 
一 将 会 详细 介绍 相关 内 容 。 


们 通过 简单 的 加 权 方 法 整合 这 两 类 模型 的 推荐 评分 , 使 得 义 原 的 预测 效果 能 够 提升 ， 下 
6.3.2 ”实验 分 析 


1. 数据 集 


在 实验 中 , 我们 主要 从 义 原 预 测 任 务 来 评价 模型 。 此 外 ,我 们 还 进行 了 详细 的 案例 
这 些 绍 末 进行 评 细 的 分 析 。 最 后 , 我 们 进行 条 例 研 究 , 分 析 不 同 词性 标注 和 频率 的 词 在 


研究 来 进一步 进行 直观 的 比较 。 接 下 来 , 我 们 首先 介绍 用 于 义 原 预测 的 数据 集 ， 然后 介 
绍 模型 的 实验 设置 。 之 后 , 我 们 用 不 同 的 评价 指标 评价 各 个 模型 的 义 原 预测 结果 ， 并 对 
SCJ UUM AE E HI PE BE Ze Fo 


我 们 使 用 知 网 作为 义 原 标注 的 数据 集 。 因 为 在 知 网 中 , Re RR RL, 而 
TAY AR A o 


这 些 义 原 被 认为 是 不 重要 的 义 原 。 因 此 , 我 们 去 除了 这 些 低 频 的 义 原 ， 最 终 在 我 们 的 数 
据 集 中 使 用 的 不 同 义 原 的 数量 是 1400. 我们 使 用 Sogou-T 语料库 作为 文本 语料库 学 习 
2. 实验 设 定 


我 们 在 义 原 预 测 任务 中 评价 了 下 列 模型 : 单 模型 包括 SPWE、SPSE 和 SPASE, 集 
的 得 分 与 预先 定义 的 固定 权重 合并 ,以 预测 义 原 。 


成 模型 包括 SPWE+SPSE 和 SPWE+SPASE。 其 中 在 集成 模型 中 , 我们 将 两 种 集成 方法 
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由 于 以 往 对 义 原 预测 的 研究 较 少 , 我 们 选择 了 一 些 常规 而 直观 的 方法 作为 基线 模型 。 
具体 而 言 , 我 们 利用 GloVe 459 学 习 的 词 黎 入 作为 词 的 特征 问 量 , 然后 直接 使 用 逻辑 回 
ABET RAW, ROSS RAR TEA RIA, 将 义 原 预 测 视 作 多 标签 分 类 任务 , HEM 
原作 为 待 预测 的 分 类 标签 。 

我 们 将 包括 基线 模型 在 内 的 所 有 模型 的 词 和 义 原 艇 入 的 维度 设置 为 200。 在 SPSE 
中 ,我 们 将 0 元 素 在 单词 义 原 矩阵 中 被 分 解 的 概率 设 为 0.5%， 并 将 初始 学 习 速 率 设 为 
0.01, 通过 和 迭代 不 断 下 降 。 我 们 将 式 (6.2) 中 的 比率 和 设置 为 0.5。 在 SPWE 中 , 我们 将 超 
参数 p 设置 为 0.2。 并 且 令 最 高 相关 词 数 K = 100。 在 集成 模型 中 , 我 们 测试 了 不 同 的 权 
E, 并 设置 A/A = 2.1。 在 知 网 中 , 我 们 发 现 了 66 126 个 词 在 Sogou-T 语料库 中 出 现 了 
至 少 50 次 。 我们 将 其 中 的 60 000 个 划分 到 训练 集中 , 其 余 6 126 个 划分 到 测试 集中 。 人 至 
于 其 他 参数 我 们 根据 经 验 选 择 最 优 。 

3. 义 原 预测 

1) 评估 标准 

由 于 很 多 词 有 不 止 一 个 义 原 , 因此 词 的 义 原 预测 任务 可 以 看 作 一 个 多 标签 分 类 任务 。 
在 评价 中 , 我 们 使 用 平均 精度 均值 CMAP) 作为 评价 指标 。 

2) 实验 结果 

表 6.1 给 出 了 这 些 模型 对 义 原 预测 的 结果 。 


表 6.1 模型 对 义 原 预测 的 结果 


Pip? MAP 
SPSE 0.554 
SPASE 0.506 
GloVe+LR 0.662 
SPWE 0.676 
SPWE+SPASE 0.683 
SPWE-+SPSE 0.713 


从 表 6.1 中 , 我 们 可 以 看 到 : 

(1) 与 单 模型 相 比 ， 集 成 模型 的 性 能 更 好 ,其 中 SPWE+SPSE 实现 了 最 佳 性 能 。 这 
一 结果 表明 ， 集 成 模型 能 够 结合 SPWE 模型 和 SPSE 模型 的 优点 。 因 为 SPWE 根据 相 
天 的 词 来 预测 义 原 , 而 SPSE 直接 建 模 词 和 义 原 之 间 的 潜在 关系 。 这 两 种 方法 是 互补 的 ， 
因此 将 这 两 种 方法 相 结 合 可 以 提高 义 原 预测 的 性 能 。 
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(2) SPWE 模型 似乎 比 SPSE 模型 和 SPASE 模型 更 好 。 这 是 因为 SPWE 模型 根 

据 相 关 的 词 来 预测 义 原 ,这 与 现实 世界 中 的 义 原 标注 情况 完全 吻合 。 与 大 多 数 传统 推荐 

系统 中 用 户 -商品 矩阵 通 澡 有 很 多 噪声 且 不 完整 的 情况 不 同 的 是 ， 知 网 中 的 义 原 标注 是 
阵 更 准确 。 因 此 ， 只 


由 人 类 专 家 仔细 注释 的 。 在 这 种 情况 下 ， 词 - 义 原 共 现 矩阵 比 推荐 系统 中 的 用 户 -商品 矩 
只 使 用 协同 过 滤 的 方法 驶 可 以 获得 较 好 的 性 能 。 逻 辑 回 归 与 SPWE 
相似 ， 因 为 它 也 利用 词 问 量 作为 特征 提取 判别 模式 进行 分 类 。 男 外 ，SPWE+SPSE 和 
SPWE-+SPASE 两 个 集成 模型 的 性 能 提升 也 表明 了 和 矩阵 分 解 的 方法 通过 对 词 与 义 原 的 潜 
在 关系 建 模 的 音义。 然而 ,， 知 网 中 的 专家 注释 并 没有 涵盖 所 有 适当 的 义 原 , 协同 过 滤 将 
捕获 专家 注释 的 偏好 ,这 使 得 SPWE 比 SPSE 和 SPASE 表现 得 更 好 。 


SPASE 中 的 假设 与 知 网 中 义 原 的 原始 定义 非 第 吻合, 但 是 有 限 的 义 原 在 现实 世界 中 仍然 
也 会 如 至 预测 性 能 下 降 。 


(3) SPSE Lt SPASE 表现 更 好 。 由 于 词 艇 入 在 SPASE 训练 过 程 中 是 固定 的 ， 所 以 
难以 表示 词 的 复杂 而 精细 的 语义 。 同 时 表明 , 词 与 义 原 之 间 语 义 组 合 的 人 简单 相 加 的 假设 


学 习 有 效 的 义 原 藤 入 以 使 得 词 艇 入 是 义 原 欣 入 之 和 的 假设 是 非 第 困难 的 。 可 以 说 , 虽然 


(4) 综 上 所 述 , 我 们 的 集成 模型 获得 的 MAP 绝对 得 分 相当 高 ， 并 且 优 于 常规 的 逻 

辑 回 归 等 多 标签 分 类 任务 的 基线 模型 , 这 也 在 一 定 程 度 上 意味 着 知 网 中 的 义 原 标注 是 合 

理 有 效 的 ,以 及 我 们 提出 的 模型 能 够 很 好 地 建 模 义 原 和 词 艇 入 来 进行 义 原 了 预测 。 
4. 案例 研究 


| 
在 案例 研究 中 , 我 们 通过 对 具体 案例 进行 进一步 的 分 析 来 解释 我 们 的 模型 的 有 效 性 。 
此 外 , 我 们 还 探讨 了 词性 和 词 频 对 词 的 义 原 预测 性 能 的 影响 。 
1) 义 原 预测 结果 分 析 


K 6.2 列 出 了 SPWE+SPSE 集成 模型 为 5 个 词 预 测 的 5 个 义 原 ，5 个 词 为 网 迷 一 
webaholic、 专 递 一 express mail、 电 影 业 一 flm industry, 漂流 一 rafting 和 公 羊 一 ram。 表 6.2 
中 加 黑 的 义 原 是 每 个 词 在 知 网 中 标注 的 义 原 ， 即 正确 义 原 。 

从 6.2 这 些 例子 中 , 我 们 可 以 得 出 以 下 结论 : 

(1) 在 前 3 个 词 例 中 , 正确 义 原 都 排 在 最 前 面 , 这 说 明 我 们 的 模型 能 够 很 好 地 预测 这 
些 词 的 义 原 。 尤 其 是 对 于 网 迷 一 webaholic, 我 们 不 仅 预 测 出 了 与 之 高 度 相 关 的 人 一 human 
和 因特网 一 Internet, 并 且 成 功 预测 出 了 被 视 为 通用 义 诛 而 不 好 预测 的 经 划一 frequency 和 
利用 一 use。 


174 | 知识 图 谱 与 深度 学 习 


表 6.2 义 原 预测 示例 


a] Top 5 义 原 预测 结果 
网 迷 一 webaholic 人 一 human, 因特网 一 Internet, 经 党 一 frequency, 利用 一 use， 喜 欢 一 fond_of 
专递 一 express mail 邮寄 一 post, 信件 一 letter, 快 一 fast, 事情 一 fact, 车 一 land_vehicle 


事务 一 affairs, @—entertainment, 表 沉 物 一 shows， 
fH te—take_picture, 制造 一 produce 
漂流 一 rafting fi—ship, 旅游 一 tour, 游 一 swim, 水 域 一 waters, 消闲 一 while_away 
公 羊 一 ram 牲畜 一 livestock， 男 一 male, 女 一 female, 走兽 一 beast, 饲养 一 foster 


电影 业 一 flm industry 


(2) 对 于 第 四 个 单词 漂流 一 rafting, 我 们 没有 在 前 5 个 义 原 预 测 结果 中 预测 出 正确 的 
义 原 。 在 知 网 中 , 漂流 一 rafting 被 标注 的 义 原 包含 运动 一 sports、 锻炼 exercise、 #2—float 
和 事情 一 fact。 然而, 如 果 我 们 将 漂流 一 rafting MA RA EW, 我 们 预测 的 义 原 也 是 
可 以 接受 的 。 事实 上 , 一 个 词 可 能 有 很 多 合适 的 义 原 。 由 于 知 网 是 由 专家 手动 注释 的 , 一 
些 可 接受 的 义 原 预测 结果 可 能 并 不 总 是 与 知 网 中 的 注释 一 致 , 因此 在 某 些 情况 下 , 我 们 
模型 的 性 能 可 能 会 被 低估 。 

(3) 对 于 单词 公 羊 一 ram, 我 们 成 功 预测 了 牲畜 一 livestock 和 男 一 male, 但 是 义 原 女 一 
female 也 在 前 3 个 预测 结果 中 , 这 反映 出 我 们 的 模型 有 一 些 问 题 。 男 一 male 和 女 一 female 
相关 ,并且 它 们 在 癌 量 空间 中 距离 很 近 。 男 外 ， 它 们 磁 巧 被 标记 给 与 公 羊 一 ram 在 语义 
空间 最 相近 的 词 ， 如 会 猪 一 boar、 母 手 一 ewe 和 母 猪 一 sow， 这 使 得 女 一 female 得 到 了 和 
男 一 male 接近 的 分 数 。 而 我 们 的 模型 不 能 很 好 地 区 分 这 样 的 义 原 , 这 种 情况 会 影响 模型 
的 预测 结果 。 

2) 词性 标注 对 义 原 预测 的 影响 

如 表 6.3 Prax, 我 们 可 以 观察 到 词性 标注 (POS) 对 义 原 预测 结果 的 影响 很 大 。 相 比 
于 其 他 词性 的 词 , 名 词 的 义 原 更 容易 预测 , 因为 名 词 更 具体 、 更 统一 。 具体 来 说 , 义 原 的 
概念 对 于 名 词 来 说 更 加 合理 和 直接 ， 因为 它们 与 动词 、 形 容 词 和 副词 相 比 更 容易 在 语义 
EAHA SUR. 我们 可 以 从 表 6.2 中 的 例子 发 现 这 种 情况 。 此 外 ， 相 似 的 名 词 倾向 于 共 
享 相同 的 义 原 ， 如 不 同 的 城市 都 共享 城市 一 city、 地 方 一 place 和 专 一 ProperName 这 些 义 
原 。 名 词义 原 预测 的 有 效 性 使 得 其 可 以 应 用 于 实际 的 义 原 具 体 应 用 中 。 

3) 词 频 对 义 原 预测 的 影响 

如 表 6.4 Bran, 我 们 可 以 观察 到 词 频 对 义 原 预测 的 影响 也 很 大 。 实 验 结果 表明 , 一 
个 词 在 语 料 中 出 现 次 数 越 多 ,其 词义 越 复杂 。 这 是 因为 一 方面 ,高 频 词 在 日 常生 活 中 被 
eA, deal Ale i), HREM RMA ES. BN, 其 
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至 一 个 词 的 多 个 义 项 互 不 相关 。 因 此 ,基于 简单 的 词 相似 性 来 为 这 些 词 预 测 义 原 是 极其 
困难 的 。 另 一 方面 , 与 高 频 词 相 比 , 低频 词 往往 包含 更 少 、 更 简单 的 词义 , 因此 更 容易 被 
预测 。 此 外 ， 由 于 在 我 们 数据 集中 ,所 有 词 的 词 频 被 限制 在 一 定 阐 值 以 上 ， 因 此 低频 词 
虽然 训练 次 数 比 高 频 词 少 , 但 也 可 以 学 习 到 较 好 的 问 量 表示 。 


表 6.3 不 同 词性 下 义 原 预测 结果 


词性 词 数 MAP 
副词 136 0.568 
形容 词 808 0.544 
动词 1 867 0.583 
和 名词 3 556 0.747 


表 6.4 ”不同 词 频 下 义 原 预测 结果 


词 频 词 数 MAP 

< 800 1 659 0.817 
800~3 000 1 494 0.736 
3 001~15 000 1 672 0.690 
> 15 000 1 311 0.596 


6.3.3 ”小结 


本 节 介绍 了 两 类 自动 为 词 进行 义 原 标注 的 方法 : 第 一 类 符合 推荐 系统 中 的 协同 过 滤 
思想 ， 基 于 词 嵌 入 进行 ， 第 二 类 基于 矩阵 分 解 方法 ， 依 赖 于 义 原 嵌 入 。 我 们 在 知 网 这 一 
义 原 知识 图 谱 上 评估 我 们 的 义 原 预测 模型 , 实验 结果 证 明了 我 们 的 模型 是 有 效 的 , 同时 证 实 
了 词 与 义 原 之 间 内 在 关系 的 重要 性 。 


6.4 融入 中 文字 信息 的 义 原 预测 


本 廊 将 介绍 的 工作 是 6.3 市 工作 的 扩展 ,同样 针 对 单 语词 的 义 原 预 测 这 一 任务 。 在 
6.3 TP, 我 们 主要 使 用 从 大 规模 语 料 中 学 习 的 词 艇 入 作为 义 原 预测 的 信息 来 源 , 而 没有 
利用 词 的 内 部 信息 ， 也 很 难处 理 低频 词 和 未 登录 词 。 在 本 节 中 ,我 们 结合 了 词 的 内 部 信 
县 FERD 来 进行 义 原 预测 。 
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6.4.1 算法 模型 


我 们 先 介 绍 本 节 使 用 的 符号 。W = {wi,w2,:… ww) 是 词 集 , S ENRE, C 为 中 
文字 集 。 Ta] w 的 义 原 集 为 On = { 1, = , SIS]? 字 集 为 Ce = fc, e CIC, | fo 以 “铁匠 一 
ironsmith” 为 例 ， 义 原 集 Sep (ironsmith) = {人 一 human, 职位 一 occupation, 金属 一 metal, 
工 一 industrial}。 给 定 一 个 词 w, CHR SE w ASR Cus 融入 学 信息 的 义 原 预测 的 
任务 自在 预测 So 主要 计算 5 中 的 所 有 义 原 相应 的 分 数 P(s | w) 并 选择 分 数 较 高 的 组 
成 义 原 预 测 集 。 

模型 由 两 部 分 组 成 : 使 用 内 部 信息 的 义 原 预测 ， 即 内 部 信息 模型 ，@ 使 用 外 部 
信息 的 义 原 预 测 ， 即 外 部 信息 模型 。 对 于 外 部 信息 模型 ， 这 里 采用 了 Xie 等 人 R95 的 
SPWE, SPSE 和 它们 的 集成 模型 。 而 对 于 内 部 信息 模型 , 这 里 新 所 出 了 SPWCEF、SPCSE 
及 其 集成 模型 。 接 下 来 我 们 先 介 绍 SPWCF 和 SPCSE 的 一 些 细 节 , 然后 展示 模型 组 合 的 
i 

1. 用 词 - 字 信息 过 滤 进 行 义 原 预 测 

受到 协同 过 滤 的 启发 " 串 ,， 我 们 提出 对 于 未 标注 的 词 ， 通过 该 词 基 于 内 部 信息 的 相 
似 词 推荐 义 原 。 我 们 认为 有 相同 的 字 , 并 且 字 在 相同 位 置 的 词 是 相似 的 。 

在 中 文中 , 一 个 字 的 意思 通常 与 其 在 词 中 的 位 置 有 关 , 我 们 考虑 一 个 词 中 的 3 个 位 
置 : 起 始 、 中 间 、 结尾 。 例如 , 在 词 “ 火 车 站 ”中 , 起 始 字 为 “ 火 ”, 而 “车 ”和 “站 ”分 别 
是 中 间 字 和 结尾 字 。“ 站 ”学 在 结尾 位 置 时 , 意思 为 车 站 , 然而 在 起 始 位 置 时 意思 第 音 是 
“WIE”, ON “站立 哨兵 ”“ 站 起 来 ”。 

形式 化 来 说 ， 对 于 一 个 词 w = cicz…:clcsj， 我 们 定义 rsB(w) = {ei}, nmw) = 
{ca…… ,clcs-1l}, rg(wW) = {clc,l}, FFA 

| Mij 
wiEWAcEnp(wi) 
Sw, | 
wi W AcE Tp (wi) 
表示 给 定 字 c 和 位 置 p 的 情况 下 义 原 sj 的 预测 分 数 ，rp 可 以 是 rB rm 或 zg。M 是 
词 - 义 原 共 现 矩阵 。 最 后 , 我 们 定义 给 定 词 w SUR sj 的 预测 分 数 函 数 P(sj |w): 
P(s; | w) ~ 3 ` P,(s5 | c) (6.5) 


pe{B,M,E} c€np(w) 


P,(s; | ¢) ~ (6.4) 


第 


=>) 
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词 到 学 过 滤 (Word-to-Character Filtering, SPWCF) 是 一 个 人 简单 而 高 效 的 方法 ,因为 
组 合 语义 在 中 文 组 合 词 中 无 处 不 在 , 这 也 使 得 通过 相同 字 来 寻找 相似 的 词 的 方式 直接 而 
简单 。 

2. AFEIRA EITA IRIN 

词 到 学 过 滤 的 方法 可 以 有 效 预 测 与 字 强 相关 的 义 原 , 然而, 和 SPWE 一 样 , 这 样 的 
方法 忽略 了 义 原 之 间 的 关系 。 因 此 , 受 SPSE 的 启发 ， BPH EEF SA RRA 
的 义 原 预测 (Sememe Prediction with Character and Sememe Embeddings, SPCSE), 将 义 
原 之 间 的 关系 考虑 进来 。 在 SPCSE F, 首先 基于 内 部 字 信 息 学 习 义 原 典 入 , 然后 计算 被 
预测 的 义 原 和 词 之 间 的 距离 。 

受 GloVe H53) 和 SPSE 启发 , 我 们 使 用 SPCSE 中 的 矩阵 分 解 方法 ， 同 时 对 词 - 义 原 
FE REA X JR- X IRIE RENIE. RITE SPCSE 中 使 用 预 训 练 的 字 般 入， 就 像 SPSE 使 用 预 
训练 的 词 能 入 一 样 。 因 为 字 往 往 有 多 个 意思 , BER SRA SBI MRA), RAEE 
最 有 代表 性 的 字 和 它 的 丛 入 来 表示 词 的 意思 。 因 为 低频 字 比 低频 词 更 稀少 , 并 且 低 频 词 
经 第 由 低频 字 所 组 成 , 因此 , 使 用 预 训练 的 字 癌 量 表示 低频 词 是 可 行 的 。 在 分 解 词 - 义 原 
FE REIN, FRA El XE ANE AY 

我 们 用 Ne 表示 每 个 字 所 拥有 的 向 量 的 数量 , 每 个 字 c 有 Ne 个 向 量 cl, ,crN。。 对 
于 一 个 词 w 和 一 个 义 原 s, 我 们 从 词 w 的 所 有 字 的 所 有 问 量 中 , 通过 计算 余弦 距离 选择 
一 个 最 接近 义 原 骸 入 的 字 回 量 作 为 词 w 的 表示 , 如 图 6.1 所 示 。 


铁匠 (ironsmitb) 
| i 预测 
铁 (iron) 3 


1.15| [E (craftsman) 2 


图 6.1 一 个 有 多 个 字 赔 入 的 例子 
TE: 数 季 是 余弦 距离 ， 义 原 “ 金 属 ” 是 最 接近 “ 铁 ” 的 一 个 赂 入 问 量 。 
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特殊 地 , 对 于 一 个 词 w = cl… le 和 一 个 义 原 Sjo 我 们 定义 
k,? = arg minll — cos(c}, (sj + 5;))] (6.6) 


其 中 , k Ale Ra] w 中 各 个 字 向 量 中 与 义 原 sj 的 向 量 最 近 的 那个 所 对 应 的 字 序 号 和 
FHES G. AHF- RERE M 和 人 义 原 - 义 原 矩阵 C, 我 们 使 用 下 列 损失 函数 学 习 义 


RKA: 
L= X (Ê (s +35) + bs + bY — Mij)? + 
wiEW,s;ES 
(6.7) 
N X (8-8, — Cy) 
Sj, Sg ES 


其 中 , s; Als, 是 sj MOURA, cf 是 在 词 wi 中 最 接近 义 原 s; 的 字 柑 入 。 应 注意 , 这 
里 的 字 和 词 不 在 同一 个 语义 空间 内 , 我 们 学 习 新 的 义 原 嵌入 , 与 SPSE 中 学 到 的 词 嵌 入 
没有 关系 。 因 此 , 我 们 使 用 不 同 的 表示 以 示 区 别 。58 和 bY 分 别 表示 cy 和 sj 的 偏 移 向 
E, V 是 调整 这 两 部 分 的 超 参数 。 F w = c1c2.… olc | 的 义 原 预测 分 数 函 数 定义 如 下 : 


P(s; | w) ~ ce: (s4 +) (6.8) 


3. 集成 模型 


SPWCF/SPCSE 和 SPWE/SPSE 采用 不 同 的 信息 来 源 作 为 输入 , 这 意味 看 它们 的 特 
点 不 同 : 一 方面 , SPWCF/SPCSE 只 使 用 词 内 部 信息 , 而 SPWE/SPSE 只 能 利用 词 上 下 文 
信息 ; 另 一 方面 , 就 像 SPWE 和 SPSE 的 区 别 一 样 , SPWCF 来 源 于 协同 过 滤 , 而 SPCSE 
使 用 了 和 矩阵 分 解 方 法 。 所 有 方法 的 共同 点 是 它们 都 会 为 相似 的 词 推 荐 义 原 , 但 是 它们 对 
相似 的 理解 不 同 。 因 此 , 为 了 获得 更 好 的 预测 效果 , 将 这 些 模型 集成 在 一 起 是 必要 的 。 

我 们 将 SPWCF 和 SPCSE 的 组 合 称 为 内 部 模型 , 将 SPWE 和 SPSE 的 组 合 称 为 外 
部 模型 。 而 内 部 模型 和 外 部 模型 的 组 合 是 我 们 的 新 模型 CSP。 实 际 上 , 对 于 可 靠 的 词 问 
量 , 如 高 频 词 , 我 们 可 以 使 用 内 部 模型 和 外 部 模型 的 整合 模型 , 对 于 词 频 非常 低 的 词 ( 词 
回 量 不 够 可 靠 )， 我 们 只 使 用 内 部 模型 而 不 使 用 外 部 模型 ， 因 为 外 部 模型 在 这 种 情况 下 
会 带 来 噪声 。 图 6.2 展示 了 在 不 同 场 景 下 模型 的 组 合 ， 出 于 比较 的 目的 , 我 们 在 所 有 实 
验 中 使 用 SPWCF、SPCSE、SPWE 和 SPSE 的 组 合 , 即 CSP 模型 。 其 中 两 个 模型 的 组 合 
都 通过 简单 的 义 原 预测 分 数 加 权 求 和 进行 。 
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图 6.2 模型 组 合 图 例 


6.4.2 ”实验 分 析 


在 这 一 市 中 , 我 们 在 义 原 预 测 任 务 上 评估 上 述 模 型 。 为 外 ,我 们 在 不 同 的 目标 词 词 
频 上 分 析 不 同 模 型 的 表现 。 我 们 还 进行 了 详细 的 案例 研究 以 展示 不 同方 法 的 运行 机 制 和 
利用 内 部 信息 的 优势 。 


1. 数据 集 


这 里 使 用 的 数据 集 和 6.3.2 节 完 全 一 致 , 即 义 原 标注 数据 来 源 于 知 网 , 词 和 字 骸 入 的 
训练 使 用 SogouT 语 料 。 

2. 实验 设 定 

在 我 们 的 实验 中 ， 我 们 评估 只 使 用 了 内 部 信息 模型 SPWCF、SPCSE、SPWCF+ 
SPCSE 和 外 部 信息 与 内 部 信息 集成 模型 CSP, 同时 使 用 SPWE、 SPSE 及 SPWE-+SPSE 
作为 基线 模型 。 此 外 ， 基 线 模 型 还 包括 使 用 fastText H4 训练 得 到 的 词 向 量 +SPWE 模 
型 ， 其 中 fastText 在 训练 词 向 量 的 过 程 中 同时 使 用 了 词 内 部 信息 和 外 部 信息 。 

我 们 将 词 、 义 原 和 字 航 入 的 维度 设 为 200. WEAH GloVe 053] 学 习 。 对 于 基线 模 
型 ， SPWE 中 超 参 数 的 设 定 和 6.3.2 节 保 持 一 致 。 模 型 训练 20 轮 , 初始 学 习 率 设 为 0.01， 
并 根据 迭代 数 而 降低 。 对 于 fastText， 我 们 使 用 基于 层次 Softmax 的 Skip-gram 模型 ， 
n-gram 的 最 短 长 度 设 为 1， 最 长 长 度 设 为 2。 对 于 集成 模型 ， 我 们 使 用 eh 214 
为 加 权 。 对 于 SPOSE, RAVE AEFRRNS RA 135 KRSYMVUANSHRA, FAR 
们 将 N。 设 为 3。 将 式 (6.7) 中 的 N 设 为 0.1。 模 型 训练 20 轮 , 初始 学 习 率 也 设 为 0.01, 
并 根据 迭代 数 而 降低 。 因 为 一 般 而 言 , 每 个 字 可 以 关联 15~20 个 义 原 , 在 SPCSE F, 我 
们 将 在 词 - 义 原 和 矩阵 中 分 解 0 元 素 的 概率 设 为 2.5%。SPWCF 和 SPCSE 的 集成 权重 设 为 
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ASPWCF _ 40. 为 了 最 终 集 成 模型 CSP 能 有 更 好 的 表现 ， 我 们 设 定 入 = 0.1 FF ARE 


ASPCSE 


ASPWE _ 0.312 5, 虽然 这 两 个 参数 分 别 为 0.5 和 2.1 时 是 SPSE 和 SPWE+SPSE 的 最 佳 


ASPSE 


参数 。 最 后 , 我 们 设 定 ea — 1 0 来 整合 内 部 模型 和 外 部 模型 。 


Alnternal 


3. 义 原 预测 结果 


和 6.3.2 TRA, 我 们 使 用 MAP 作为 义 原 预测 评估 指标 。 整体 义 原 预 测 结 果 如 表 6.5 
PAR o 


6.5 整体 义 原 预测 结果 


方法 MAP 

SPSE 0.411 
SPWE 0.565 
SPWE+5PSE 0.577 
SPWCF 0.467 
SPCSE 0.331 
SPWCF + SPCSE 0.483 
SPWE + fastText 0.531 
CSP 0.654 


从 表 6.5 F, 我 们 可 以 观察 到 : 

(1) CSP 集成 模型 取得 了 最 佳 预测 结果 。CSP 模型 将 词 内 部 的 字 信 息 与 词 外 部 的 上 
下 文 信息 结合 起 来 , 显著 一 致 地 提升 了 模型 在 义 原 预测 上 的 表现 。 这 一 结果 证 明了 结合 
外 部 信息 和 内 部 信息 进行 义 原 预测 的 有 效 性 。 

(2) SPWCF + SPCSE 的 表现 比 SPSE 要 好 , 这 意味 着 只 使 用 内 部 信息 也 已 经 可 以 
在 义 原 预测 上 取得 较 好 的 结果 。 此 外 , 在 内 部 模型 中 , SPWCF 表现 远 胜 于 SPCSE, 这 也 
表明 了 协同 过 滤 的 强大 力量 。 

(3) SPWCF + SPCSE 的 表现 不 如 SPWE + SPSE, 这 表明 在 缺少 上 下 文 信 息 的 情况 
下 确定 词 的 语义 仍然 很 困难 ， 这 是 由 字 的 歧义 性 和 语义 模糊 性 造成 的 。 男 外 ,一 些 词 并 
不 是 复合 词 (如 单词 素 词 或 者 音译 词 ),， 这 些 词 的 意思 很 难 直接 通过 它们 的 字 推 断 出 来 。 
对 于 中 文 而 言 , 内 部 字 信 息 只 是 不 完全 的 知识 。 我们 展示 SPWCF 和 SPCSE 的 结果 仅仅 
是 为 了 展示 单独 使 用 内 部 信息 的 能 力 。 在 我 们 的 案例 研究 中 , 我 们 将 展示 内 部 模型 对 低 
频 词 非常 有 效 , 并 且 可 以 用 于 推测 未 登录 词 的 意义 。 
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4. 不 同 词 频 下 的 分 析 

为 了 验证 我 们 的 模型 在 不 同 词 频 下 的 有 效 性 , 我 们 将 知 网 中 中 剩余 的 词 加 入 测试 集 。 
由 于 剩余 的 词 都 是 低频 的 , 我 们 主要 关注 的 其 实 是 呈 长 尾 分 布 的 词 。 我 们 计算 测试 集中 
的 每 个 词 在 语 料 中 的 出 现 次 数 并 根据 它们 的 频率 将 它们 分 成 8 类 。 不 同 词 频 下 的 义 原 预 
测 结 果 如 表 6.6 所 示 。 


表 6.6 不同 词 频 下 的 义 原 预测 结果 


词 频 <50 51100 101~1 000 1 001~5 000 5001~10 000 10001~30000 >30 000 

出 现 数 8537 4868 3 236 2 036 663 753 686 
SPWE 0.312 0.437 0.481 0.558 0.549 0.556 0.509 
SPSE 0.187 0.273 0.339 0.409 0.407 0.424 0.386 
SPWE + SPSE 0.284 0.414 0.478 0.556 0.548 0.554 0.511 
SPWCF 0.456 0.414 0.400 0.443 0.462 0.463 0.479 
SPCSE 0.309 0.291 0.286 0.312 0.339 0.353 0.342 
SPWCF + SPCSE 0.467 0.437 0.418 0.456 0.477 0.477 0.494 
SPWE + fastText 0.495 0.472 0.462 0.520 0.508 0.499 0.490 
CSP 0.527 0.555 0.555 0.626 0.632 0.641 0.624 


从 表 6.6 中 , 我 们 可 以 观察 到 : 

(1) SPSE、SPWE 和 SPWE + SPSE 在 低频 词 上 的 表现 相 比 高 频 词 而 言明 显 下 降 。 
恰恰 相反 ,，SPWCF、SPCSE 和 SPWCF + SPCSE 的 表现 虽然 在 高 频 词 上 更 弱 , 但 是 在 
长 尾 场景 下 并 没有 被 强烈 地 影响 。CSP 的 表现 也 降低 了 , 因为 CSP 也 使 用 了 外 部 信息 ， 
而 外 部 信息 对 于 低频 词 而 言 并 不 充足 。 这些 结果 表明 词 频 和 词 娩 入 的 质量 可 以 影响 义 原 
预测 模型 的 表现 , 特别 是 对 于 主要 大 注 词 本 喘 的 外 部 模型 。 然而， 内 部 模型 在 处 理 长 尾 
分 布 时 表现 得 更 加 重 棒 。 虽 然 词 不 需要 出 现 太 多 次 以 学 习 到 好 的 词 骨 入 ,对 于 外 部 模型 
而 言 ， 为 低频 词 推 荐 义 原 仍然 很 难 。 同 时 因为 内 部 模型 不 使 用 外 部 的 词 同 量 , 它们 仍然 
能 在 这 样 的 场景 下 委 效 。 至 于 局 频 词 上 的 表现 ,因为 这 些 词 航 广泛 使 用 ， 所 以 遍 频 词 的 
政 义 性 更 强 , 然而 内 部 模型 在 高 频 词 上 仍然 稳定 。 

(2) 低频 中 文 词 也 大 多 是 由 常见 的 字 构 成 的 , 因此 在 低频 词 (甚至 是 那些 未 登录 词 ) 
的 义 原 预测 中 使 用 内 部 字 信 息 也 是 可 行 的 。 此 外 , 我 们 的 方法 给 出 的 不 同 词 频 下 的 MAP 
结果 的 稳定 性 也 反映 了 知 网 义 原 标注 的 可 靠 性 和 一 般 性 。 我 们 会 在 我 们 的 案例 研究 中 给 

© 具体 而 言 , 我 们 不 采用 数量 词 、 标 点 符号 、 单 字 词 、 不 在 训练 语 料 中 的 词 〔 因 为 它们 至 少 需要 出 现 一 次 来 得 
BMRA) 及 外 文 缩写 。 


182 | 知识 图 谱 与 深度 学 习 


出 详细 的 分 析 。 


5. 案例 研究 


我 们 的 主 实验 已 经 展示 了 我 们 模型 的 有 效 性 , 下 面 我 们 更 进一步 研究 了 各 个 模型 的 
输出 以 确认 字 级 别 的 知识 已 经 被 包含 到 义 原 预测 中 。 

K 6.7 展示 了 “钟表 哲 ” 和 “奥斯卡 ”的 义 原 预测 结果 。“ 钟 表 匠 一 Clockmaker” 是 
一 个 典型 的 复合 词 ， 而 “奥斯卡 一 Oscar” 是 一 个 音译 词 。 对 于 每 个 词 ， 列 出 由 内 部 模型 
(SPWCF + SPCSE)、 外 部 模型 (SPWE + SPSE) 和 集成 模型 (CSP) 预测 的 前 5 个 结果 。 


表 6.7 义 原 预测 示例 


if 模型 前 5 个 义 原 
内 部 模型 人 一 human, 职位 一 occupation, 部 件 一 part, 时 间 一 time, 告诉 一 tell 
in 外 部 模型 人 一 human, 专 一 ProperName, 地 方 一 place, 欧洲 一 Europe, 政 一 politics 
集成 模型 人 一 human, 职位 一 occupation, 告诉 一 tell, 时 间 一 time, 用 具 一 tool 
内 部 模型 专 一 ProperName, 地 方 一 place, 市 一 city 人 一 human, 国都 一 capital 
i 外 部 模型 奖励 一 reward, 艺 一 entertainment， 


&—ProperName, 用 具 一 tool, 事情 一 fact 
专 一 ProperName, 奖励 一 reward, 艺 一 entertainment， 


集成 模型 | 
著名 一 famous, 地 方 一 place 


VE: 加 粗 的 义 原 是 正确 义 原 。 


“钟表 匠 ” 这 个 词 由 3 个 凶 构 成 :“ 钟 "”“ 表 ”和 “ 匠 ”。 人 类 可 以 从 下 完 上 推断 出 钟 
+ 人 一 钟表 匠 。 然 而 ,外 部 模型 在 这 个 例子 上 表现 不 好 。 如 果 我 们 研究 “钟表 匠 ” 的 词 
嵌入 ， 则 可 以 知道 为 什么 这 个 方法 推荐 出 不 合理 的 义 原 。 训 练 集中 词 柑 入 最 接近 “钟表 
E” W 5 MARIE mE” FR” EE” RHR” M RWWA”. 注意 到 这 些 词 
中 没有 一 个 直接 与 “ 钟 ”“ 时 钟 ” 或 “钟表 ”相关 。 因 此 , 义 原 “ 时 间 ”“ 告 诉 ” 和 “用 具 ” 
不 能 从 这 些 词 中 推断 出 来 ， 即 使 义 原 间 的 关系 已 经 由 SPSE 引入 。 事 实 上 ， 这 些 词 都 间 
接 与 “ 钟 ” 相关 : 瑞士 的 钟表 工业 很 出 名 ; 卢梭 出 生 于 一 个 有 钟表 制造 传统 的 家 寿 ; 鞋匠 
和 发 明 家 也 是 两 种 职业 。 由 于 以 上 原因 , 这 些 词 通 币 和 “钟表 拷 ” 共同 出 现 , Be AS 
出 现在 和 “钟表 区 ”相似 的 上 下 文中 。 这 说 明 在 外 部 模型 中 所 使 用 的 相关 的 词 癌 量 并 不 
总 是 推荐 相关 的 义 原 。 

“奥斯卡 ”这 个 词 是 由 英文 Oscar 音译 而 来 。 因 此 “奥斯卡 ”中 每 一 个 字 的 意思 和 
这 个 词 的 意思 无 关 。 另 外 “ 奥 ”“ 斯 ”“ 卡 ”在 音译 词 中 很 常见 ， 于 是 内 部 方法 推荐 如 
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OS” A “地方 ” 这样 的 义 原 ,因为 很 多 的 音译 词 都 是 专 有 名 词 或 者 地 名 。 
6.4.3 小结 


本 有 引入 了 子 级 别 的 内 部 信息 用 于 中 文 词 的 义 原 预 负 ,以 缓解 上 只 使 用 外 部 信息 造成 
的 问题 。 我 们 还 提出 了 整合 了 内 部 信息 和 外 部 信息 用 于 词汇 义 原 预测 的 “ 字 增 强 的 义 原 
预测 ”(CSP) 框架 ,并 提出 了 两 种 利用 内 部 信息 的 方法 。 我 们 在 知 网 数据 集 上 评估 我 们 
的 CSP 框架 ,实验 结果 表明 CSP 取得 了 出 色 的 结果 ， 并 超过 了 之 前 的 只 使 用 词 上 下 文 
信息 的 模型 , 特别 是 在 低频 词 上 。 


6.5 ” 跨 语 言词 汇 的 义 原 预 测 


大 多 数 语 言 没 有 基于 义 原 的 语言 知识 图 谱 , 这 在 很 大 程度 上 阻碍 了 我 们 对 人 类 语言 
的 理解 和 利用 。 因 此 ,为 各 种 语言 构建 基于 义 原 的 知识 图 谱 是 非常 重要 的 。 手工 构建 基 
于 义 原 的 语言 知识 图 谱 需 要 许多 语言 专家 的 努力 ， 这 既 费 时 又 费力 。 例如， 知 网 的 构建 
花费 了 很 多 中 国语 言 专家 十 多 年 的 时 间 。 基于 此 , 我 们 提出 “ 跨 语 言词 汇 的 义 原 预 测 ” 任 
Z, 则 在 帮助 语言 学 家 从 现 有 的 义 原 知识 图 谱 出 发 , 更 高 效 地 为 其 他 语言 建立 义 原 知识 
图 谱 。 

这 个 任务 面临 两 个 关键 挑战 : 

(1) 不 同 语言 的 词 之 间 没 有 一 致 的 一 对 一 匹配 。 例如， 英文 词 beautiful 可 以 指 中 文 
W “SENN” 或“ 漂亮"。 因 此 , 我 们 不 能 简单 地 将 知 网 翻译 成 男 一 种 语言 。 如 何 识 别 一 个 词 
在 其 他 语言 中 的 语义 是 一 个 关键 问题 。 

(2) 由 于 词 与 义 原 之 间 存 在 着 语义 上 的 差异 ， 我 们 需要 构建 词 与 义 原 之 间 的 语义 表 
示 ， 以 获取 它们 之 间 的 语义 关联 。 

针对 “路 语 言词 汇 的 义 原 预测 ”任务 的 特点 和 挑战 ， 我 们 设计 了 一 种 新 模型 一 一 
CLSP， 则 在 将 基于 义 原 的 知识 图 谱 从 源 语言 迁移 到 目标 语言 。 我 们 的 模型 包括 3 个 模 
K: @ 单 语言 的 词 黎 入 学 习 , 分 别 学 习 源 语言 和 目标 语言 词汇 的 向 量 表示 ; O BER 
词 甬 入 对 齐 , 旨 在 将 两 种 语言 的 词 嵌 入 对 齐 在 同一 个 语义 空间 ; @ BET OUR a RAS 
4, 其 目标 是 将 义 原 信息 融入 词 表示 中 。 为 了 简单 起 见 ， 本 节 同 样 不 考虑 知 网 中 义 原 的 
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6.5.1 算法 模型 


本 小 节 主 要 介绍 我 们 提出 的 模型 CLSP 的 细节 ,这 里 定义 有 义 原 标注 的 语言 为 源 语 
言 ， 没有 义 原 标注 的 语言 为 目标 语言 。 模 型 的 主要 目的 是 将 源 语言 和 目标 语言 的 词 通过 
联合 学 习 藤 入 到 同一 个 语义 空间 , 然后 利用 与 目标 语言 的 符 推 荐 词语 义 相近 的 源 语言 
的 词 的 义 原 标注 信息 ,为 目标 词 推 荐 义 原 。 

模型 由 3 部 分 组 成 : 单 语 词 表 示 学 习 、 路 语言 词 仍 入 对 齐 和 基于 义 原 的 词 表示 学 习 。 
相应 地 , 模型 的 目标 函数 为 3 部 分 ， 即 


L — Lemona + Garos + i (6.9) 


其 中 , 单 语 项 Liwono 自在 分 别 从 源 语言 和 目标 语言 各 目的 语 料 中 学 习 词典 入 ,路 语言 项 
Lcross 则 在 对 齐 跨 语 言词 杠 入 于 相同 的 语义 空间 之 中 , 而 Lsememe 可 以 将 义 原 信息 融合 到 
源 语言 词 的 表示 学 习 中 ， 以便 获得 更 好 的 义 原 预测 效果 。 接 下 来 介绍 这 3 部 分 的 细节 。 


1. 单 语 词 表 示 


因为 源 语言 和 目标 语言 的 语 料 是 非 平行 的 , 因此 Lmon 包含 两 个 彼此 独立 的 单 语 项 ， 
Bp 
Lmono — Ce ain T E (6.10) 


其 中 ,上 标 S 和 工分 别 表示 源 语言 和 目标 语言 。 

我 们 选择 Skip-gram 这 一 词 表 示 学 习 模 型 来 获得 单 语 词 艇 入 。Skip-gram 模型 的 目标 
是 最 大 化 以 中 心 词 为 条 件 时 上 下 文 词 的 预测 概率 。 形 式 上 ， 以 源 语 言 为 例 , 给 定 训 练 词 
序列 {we,---,w2}, Skip-gram 模型 的 目标 是 最 小 化 以 下 损失 函数 : 


n—-K 
EP ec — ` ` log P(w? , | w”) (6.11) 
c=K+1 —K<k<K,k40 
其 中 , K RANA RAW KZ). P(w, | w) 表示 中 心 词 为 wz WE Rocce a] 
概率 , 通过 Softmax 函数 形式 化 表达 为 
exp(w®,, -w®) 
> exp(w® - w’) (6.12) 


wiEeVys 


ANF, VS 表示 源 语言 的 词 表 ，CT 的 定义 是 类 似 的 。 


P(w, | wÈ) = 
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2， 跨 语言 词 能 入 对 齐 

路 语言 词 骨 入 对 齐 的 目标 是 为 源 语言 和 目标 语言 中 的 词 构建 统一 的 语义 空间 。 受 
Zhang 等 人 B23 启发 ,我 们 使 用 种 子 词典 和 匹配 作为 跨 语 言 信号 进行 跨 语 言词 嵌入 对 齐 。 

ÉRE, Leos 由 两 项 组 成 ， 分 别 是 基于 种 子 词典 的 对 齐 Lseeq 和 通过 匹配 的 对 齐 
Le match © 


| ee — Ardd T AmL match (6.13) 


其 中 , As 和 Am 是 控制 两 项 相对 权重 的 超 参数 。 

1) 通过 种 子 词典 对 齐 

种 子 词典 项 Cseea 使 得 在 一 个 种 子 词 典 D 中 的 翻译 词 对 的 词 髓 入 更 加 接近 , 可 以 通 
过 Lo 正则 项 达成 此 目的 。 


Lseed = ` [ws — we llr (6.14) 
(wS,w )ED 

其 中 , ws 和 wz 表示 在 种 子 词典 中 一 对 同 义 的 源 语言 和 目标 语言 词 。 

2) 通过 匹配 机 制 对 齐 

匹配 机 制 建 立 在 以 下 假设 下 : 每 个 目标 语言 词 都 与 茶 个 源 语 言词 或 特殊 空 词 匹配 ， 
相应 地 , 每 个 源 语言 词 也 都 与 某 个 目标 语言 词 或 特殊 空 词 匹配 。 匹 配 过 程 的 目标 是 为 每 
个 目标 OD 语言 词 找到 匹配 的 源 (目标 ) 语言 词 ， 并 最 大 化 所 有 匹配 词 对 的 匹配 概率 。 
这 部 分 的 损失 函数 可 以 表述 为 


Cac = La a (6.15) 


Ep, LISa 项 为 目标 语言 词 到 源 语言 词 的 匹配 ，L52T ， 项 为 源 到 目标 的 匹配 。 接 下 
来 ,我 们 将 详细 解释 目标 语言 词 到 源 语 言词 的 匹配 ， 源 语言 到 目标 语言 词 的 匹配 以 相同 
的 方式 定义 。 我 们 首先 为 每 一 个 目标 语言 词 wx 引入 隐 变 量 m € {0,1,… ,|VS|} (t = 
1,2,---,|V7|), 此 处 VS] 和 VT] 分 别 表示 源 语言 和 目标 语言 的 词 表 大 小 。m 表示 所 匹 
配 的 源 语言 词 wi 的 索引 , m = 0 表示 匹配 到 空 词 。 因 此 有 m = {m,m ,mjv7T|}, 我 
们 可 以 形式 化 地 描述 目标 语言 到 源 语言 的 匹配 项 : 


E- — log P(CT | C?) 


match 一 


6.16) 
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其 中 , CT 和 C5 分 别 表示 目标 语言 语 料 与 源 语言 语 料 。 这里, 我 们 简单 假设 目标 词 的 匹 
配 过 程 相互 独立 ,， 因此 有 
P(CT,m|c’)= || Pa, m]c’) 


wTecT 


= [J PE | win) 
t=1 


其 中 , we 是 wz 所 匹配 的 源 语 言词 ，c(wz ) 是 词 wz 在 目标 语言 语 料 中 出 现 的 次 数 。 
3. 基于 义 原 的 词 表 示 


基于 义 原 的 词 表 示 上 则 在 通过 引入 源 语言 的 语言 知识 图 谱 信 息 来 改进 用 于 义 原 预 测 的 
词 舱 入 质量 。 本 市 下 面 介绍 两 种 基于 义 原 的 词 表示 方法 。 

1) 基于 词 关 系 的 方法 

一 个 简单 而 直观 的 方法 是 让 具有 相似 义 原 标注 的 词 具 有 更 相似 的 词 艇 入 , 我 们 将 其 
命名 为 基于 词 关 系 的 方法 (word relation-based approach ) 。 首先 ， 我 们 从 源 语言 的 基于 
语义 的 语言 知识 图 谱 中 构造 同义词 表 , 这 里 我 们 将 具有 一 定数 量 相 同 义 原 的 词 视 为 同 义 
词 。 然 后 , 我 们 使 同义词 具有 更 相近 的 词 艇 入 。 形式 上 , 我 们 设 定 w 为 源 语言 词 we 的 
MRA, w? ALAR RH ARA. Syn(wS) 表示 词 ws 的 同义词 集 , 则 损失 函数 为 


Csememe = X, lo - il+ >> Bill? 一 好 (6.18) 
wSEVS we ESyn(we) 
其 中 , a 和 6 控制 两 项 的 相对 强度 ,应 该 注意 的 是 , 使 相似 单词 具有 相近 词 髓 入 的 这 一 
想法 类 似 于 Farugui 等 人 3) 中 的 对 词 癌 量 进 行 后 处 理 的 方法 (retrofitting approach)。 然 
而 ， 该 方法 不 能 在 此 直接 应 用 ， 因 为 基于 义 原 的 语言 学 知识 图 谱 ( 如 知 网 ) 无 法 提供 所 
需 的 同义词 列表 。 
2) HEF MARA BITTE 
基于 词 关 系 的 方法 尽管 简单 、 高 效 ， 但 是 无 法 充分 利用 基于 义 原 的 语言 知识 图 谱 
的 信息 ， 因 为 它 忽略 了 义 原 和 词 之 间 的 复杂 关系 及 不 同 义 原 之 间 的 关系 。 为 了 克服 这 
个 局 限 性 ， 这 里 提出 基于 义 原 嵌入 的 方法 ， 联 合 学习 词 嵌入 和 义 原 嵌入 。 在 这 种 方法 
中 ， 我 们 采用 分 布 式 回 量 表示 义 原 ， 并 将 它们 放 在 与 词 戏 入 相同 的 语义 空间 中 。 类 似 于 
SPSE Ro% 引 ,我们 的 方法 利用 义 原 散 入 作为 正则 项 来 学 习 更 好 的 词 租 入 。 与 SPSE 不 同 的 
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是 ,我 们 不 使 用 预先 训练 的 词 嵌入 ， 相 反 ， 我们 同时 学 习 词 嵌 入 和 义 原 嵌入 。 更 具体 来 
说 , 我 们 可 以 从 知 网 中 提取 出 源 语言 的 词 - 义 原 矩阵 MS, 其 中 MS, = 1 表示 词 ws 表示 
词 被 标注 了 义 原 z 否则 MS, = 0。 通过 分 解 Ms, 我 们 定义 损失 函数 为 


Lsememe= X (wi.z;+bs+b; — Ms,) (6.19) 
wsEVS ,ziEX 
其 中 , bs Alb 是 ws 和 zx; WME, X 表示 义 原 集合 。 通过 这 种 方法 , 我 们 获得 了 在 同一 
语义 空间 的 词 艇 入 和 义 原 姐 入 ， 义 原 髓 入 包含 关于 词 与 义 原 的 语义 信息 , 并 且 将 义 原 信 
BEA BI RAH. AU, 此 时 的 词 嵌 入 会 更 适合 做 义 原 预测 。 


4. 训练 


在 训练 单 语 词 嵌 入 时 ,我 们 采用 来 自 Mikolov 等 人 227] 的 负 采 样 的 方法 。 在 义 原 部 
分 的 优化 中 , 我 们 采用 迭代 更 新 的 方法 ， 和 Farugui 等 人 B3 一 样 ,使 用 基于 词 关系 的 方 
法 和 基于 义 原 散 入 的 方法 都 使 用 随机 梯度 下 降 法 (SGD)。 对 于 跨 语 言 部 分 种 子 词典 项 的 
优化 , 我 们 也 使 用 随机 梯度 下 降 法 。 

然而 ， 由 于 隐 变 量 的 存在 ， 蜂 语言 部 分 的 匹配 项 的 优化 有 些 困难 ， 我 们 使 用 Viterbi 
EM 算法 解决 这 一 问题 。 接 下 来 , 我 们 仍然 以 目标 到 源 病 为 例 ， 并 使 用 Viterbi EM 算法 
详细 描述 训练 过 程 。 

Viterbi EM 算法 中 的 Viterbi E 步 与 紧 随 的 M 步 交 苦 进 行 ,，Viterbi E 步 的 目标 是 在 
当前 的 参数 下 寻找 最 大 概率 的 匹配 词 对 。 考 虑 到 其 相互 独立 ,我 们 可 以 分 别 为 每 个 词 寻 
找 匹配 词 。 


m= argmax 已 (wL | 5) (6.20) 
s€{0,1,---,|V>|} 


匹配 概率 的 参数 化 有 多 种 选择 , 为 了 计算 人 简便, 我们 选择 余弦 相似 度 。 
SU: 
P(w; | w5) = | (6.21) 
cos(wi ,3) 其 他 情形 
其 中 , e 是 一 个 超 参 数 , 表示 匹配 到 空 词 的 概率 。Viterbi E 步 通过 下 式 计算 匹配 : 


m= argmax cos(w;,wr) (6.22) 
sE{1,.… dd 

me cos(w; , wh, ) > 6; 

mt (6.23) 


Lo 其 他 情形 
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由 此 可 以 看 出 e A AYE A LYSA n E DE Ac a) TY Bf o 
当 Viterbi E 步 观察 到 隐 变 量 后 , Viterbi M 步 则 在 最 大 化 观察 到 的 概率 。 因此, 我们 
可 以 将 匹配 词 对 视 为 正确 的 翻译 , 并 使 用 Ls 正则 项 进行 优化 。 因此, MERN 


(Wi ,Wh ) = argmax M (ws, wT) (6.24) 
此 处 M (ww, wt) 被 定义 为 
IV | 
M(w =~ LM TI[ # 0) Wwa, || Ls (6.25) 


其 中 , [m 关 0) 为 指示 函数 。 
5. 预测 


由 于 我 们 假设 具有 相似 的 义 原 标 注 的 词 是 相似 的 , 并 且 相 似 的 词 应 该 具有 相似 的 义 
R, RIT SPWE, 我 们 可 以 用 最 相似 的 源 语 言词 为 目标 语言 词 推荐 义 原 。 
形式 上 , 我 们 定义 对 于 给 定 的 目标 语言 词 wi、 义 原 rj NBR P(x; | wh) 为 
P(x; | wi ) = > cos(w3, w; ) - MÌ; g“ (6.26) 
wSEVS 
其 中 , r 为 对 源 语言 词 ws MAA cos(wS, wl) 的 递减 等 级 , ce (0,1) 是 一 个 超 参 数 ， 
整体 上 和 SPWE 基本 类 似 。 


6.5.2 ”实验 分 析 


在 这 一 部 分 中 ,我们 首先 介绍 实验 所 使 用 的 数据 集 , 然后 描述 基线 方法 和 我 们 模型 
中 的 实验 设置 , 随后 展示 跨 语 言词 义 原 预 测 的 不 同方 法 的 实验 结果 , 接着 进行 详细 的 分 
析 和 案例 研究 ， 在 此 之 后 , 我 们 调研 词 频 对 跨 语 言词 义 原 预 测 结果 的 影响 ,最 后 我 们 将 
通过 两 个 子 任务 , 包括 双语 词典 构建 和 词 相 似 度 计 算 , 进行 更 多 的 量化 分 析 。 

1. 数据 集 

我 们 使 用 知 网 中 的 义 原 标注 来 进行 义 原 预测 。 和 之 前 章节 不 同 的 是 , 我 们 同时 使 用 
了 知 网 中 中 文 和 英文 词 的 义 原 标注 。 知 网 为 118 346 个 中 文 词语 和 104 025 个 英文 词语 
标注 了 义 原 , 总 共 使 用 了 1 983 个 义 原 。 和 之 前 的 章节 类 似 , 我 们 过 滤 掉 低频 义 原 。 有 具体 

言 ， 频 率 阔 值 设 为 5， 因 此 实验 最 终 使 用 的 义 原 数量 是 1 400。 


第 6 章 语言 知识 的 自动 获取 | 189 


在 实验 中 ,中 文 作 为 源 语 言 ， 英 文 作 为 目标 语言 。 为 了 学 习 中 文 和 类 文 的 单 语 词 垦 
入 ,我 们 分 别 从 SogouT 和 Wikipedia 出 中 抽取 了 2.0GB 的 文本 作为 训练 语 料 。 

至 于 种 子 词典 , 我 们 以 与 Zhang 等 人 123 相似 的 方法 来 构建 。 首 先 我 们 使 用 谷歌 翻 
译 APIG 来 翻译 源 语言 ( 即 中 文 ) 词 , 然后 以 得 到 的 翻译 结果 一 一 目标 语言 ( 即 英文 ) 词 
作为 输入 , 再 次 查询 谷歌 翻译 , 得 到 返回 的 源 语 言 (中文) 词 。 我 们 仅 保留 两 轮 翻 译 后 的 
源 语言 词 与 原始 源 语言 词 相同 的 翻译 词 对 。 

在 接 下 来 的 双语 词典 构建 任务 中 , 我 们 使 用 汉 英 翻译 词典 3.0 版 本 (Chinese-English 
Translation Lexicon Version 3.0) © 作为 测试 集 。 在 词 相似 度 任务 中 ， 我 们 选择 Word- 
Sim 240 和 WordSim 297 94 数据 集 进行 中 文 词 相似 度 计 算 ， 选择 WordSim 353 55 和 
SimLex 999 [76] 数据 集 进行 英文 词 相似 度 计 算 ， 以 评估 模型 在 词 问 量 学 习 方 面 的 表现 。 这 
些 数据 集 包 含 词 对 及 人 类 给 出 的 相似 度 分 数 。 有 具体 评估 方法 如 下 : 根据 利用 词 问 量 计算 
得 到 的 词 对 的 余弦 相似 度 对 词 对 进行 排序 , 然后 与 人 类 评分 等 级 进行 比较 来 计算 斯 皮尔 
曼 相 关系 数 。 


2. 实验 设置 


词 租 入 和 义 原 髓 入 的 维度 为 200, 并 且 随 机 初始 化 。 FEB RAS SH, 我 们 参照 
了 Mikolov 等 人 '?7 的 最 佳 参数 设置 ， 设 窗口 大 小 K 为 5, 高 频 词 的 降 采 样 率 为 1075, 
学 习 率 为 0.025， 负 采样 数 为 5。 在 跨 语 言词 租 入 对 齐 中 , 种 子 词典 项 权重 入 为 0.01, 区 
配 项 权重 Am 为 1 000。 在 基于 义 原 的 词 表 示 中 , 基于 词 关 系 方法 中 的 被 认为 是 同义词 的 
词 对 共享 义 原 数量 为 2。 在 训练 匹配 项 过 程 中 , 我 们 经 验 性 地 设置 e 为 0.5。 在 预测 目标 
语言 词 的 义 原 时 , RINER 100 个 最 相似 的 源 词 ， 衰减 参数 c 为 0.8。 跨 语言 义 原 预测 
的 测试 集 包 括 2 000 个 随机 选择 的 英文 词 。 

3. 跨 语 言词 义 原 预测 

我 们 通过 为 英文 词 预 测 义 原来 评估 我 们 的 模型 。 因 为 义 原 预测 可 以 被 认为 是 一 个 多 
标签 分 类 的 任务 , 我 们 仍 使 用 MAP 和 F 分 数 来 评估 义 原 预测 结果 。 

我 们 将 基于 词 关 系 融 合 义 原 信 息 的 模型 (命名 为 CLSP-WR) SRA VIA RAR XM 
原 散 入 的 模型 (命名 为 CLSP-SE) 及 未 利用 义 原 信息 的 双语 词 表 示 学 习 模 型 BiLex 222 

@ https://dumps.wikimedia.org. 


(2) https:/ /cloud.google.com /translate. 
@) https: //catalog.ldc.upenn.edu/LDC2002L27. 
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这 个 基线 方法 做 比较 。 我 们 借助 BiLex 训 好 的 双语 词 癌 量 , 利用 义 原 预测 方法 来 为 目标 
语言 词 预 测 义 原 。 

K 6.8 展示 了 在 种 子 词典 规模 分 别 为 {1 000, 2 000, 4 000, 6 oo} CH Hi PRBS 
词义 原 预测 的 评测 结果 。 


表 6.8 不同 种 子 词典 大 小 下 跨 语言 词义 原 预 测 的 评测 结果 


义 原 预测 
方法 词典 
种 了 MAP Fy 
1 000 27.507 16.08 
2 000 33.79 22.33 
BiLex 
A 000 35.78 25.74 
6 000 38.29 28.71 
1 000 28.12 18.55 
2 000 33.78 23.64 
CLSP-WR 
4 000 38.30 27.74 
6 000 41.23 30.64 
1 000 31.78 18.22 
2 000 37.70 24.31 
CLSP-SE 
4 000 40.77 29.33 
6 000 43.16 32.49 


从 表 6.8 中 , 我 们 可 以 清晰 地 看 到 : 

(1) 本 市 提出 的 两 个 模型 在 所 有 的 种 子 词典 规模 上 都 表现 得 比 BiLex 好 。 这 表示 在 
词 嵌 入 中 引入 义 原 信息 可 以 有 效 地 提高 目标 词义 原 预 测 的 结果 。 这 是 因为 这 两 个 模型 让 
AAAI Rint Nil AAU RA, 因此 , 模型 可 以 根据 目标 词 的 相关 源 语言 词 为 
它 推荐 更 好 的 义 原 。 

(2) CLSP-SE 模型 比 CLSP-WR 模型 实现 了 更 好 的 效果 。 这 是 因为 通过 将 义 原 表示 
在 一 个 语义 空间 中 , CLSP-SE 模型 可 以 进一步 捕捉 义 原 之 间 的 关系 以 及 词 和 义 原 之 间 的 
关系 , 这 对 建 模 相似 义 原 的 词 有 所 帮助 。 


4. 案例 研究 


在 案例 研究 中 , 我 们 进行 了 定性 分 析 ， 以 详细 的 例子 和 分 析 解 释 我 们 的 模型 的 有 效 
性 。 这 里 展示 两 个 跨 语 言词 义 原 预 测 的 例子 , HA handcuffs 和 canoeist。 图 6.3 展示 
了 5 个 最 接近 handcuffs 和 canoeist AYP MC ia] ASE Cia] a RAL, 这 里 使 用 了 t-SNE [223] 


D 种 子 词典 的 最 大 规模 为 6 000, 这 是 我 们 能 从 双语 语料库 中 获得 的 翻译 词 对 的 最 大 数量 。 
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将 每 个 词 租 入 投影 到 二 维 空间 中 ，。 
? burgl 
皮 划 艇 (kayak) urglars 
图 
L 图 
swimmer rower . handcuff 
a T 回 gunpoint 
weightlifter ee #8 (rope) Pc 
A Ff (handcuffs) E 
rs a 
短跑 (sprint) Bim (kayak) 绑 (tie) cuffs 
ERF (canoe) @ 
@ 
将 (sports star )my a DEPE (shackles) m 
medalist skier 螺丝 刀 (screwdriver) 


TE: @ 中 文 词 ; 国 英文 词 。 
图 6.3 ”两 个 最 近 的 英文 词 和 中 文 词 的 例子 


表 6.9 列 出 了 模型 为 两 个 词 预 测 的 前 5 个 义 原 ,其 中 黑体 义 原 表示 知 网 中 标注 了 的 
义 原 。 表 6.9 也 展示 了 5 个 最 接近 的 中 文 词 在 知 网 中 所 标注 的 义 原 。 


表 6.9 两 个 跨 语 言词 义 原 预测 的 例子 


义 原 
用 具 一 tool, 警 一 police, 扣 住 一 detain, A—human, 
有 罪 一 guilty 
有 罪 一 guilty， 警 一 police， 人 一 human， 扣 住 一 detain， 用 具 一 
tool 
A —guilty, #—police, A—human, #1{f—detain, hA— 
tool 
包扎 一 wrap 
用 具 一 tool, 放松 一 loosen, 勒 紧 一 tighten 


线 一 linear, 材料 一 material, 挫 连 一 fasten 


义 原 


锻炼 一 exercise, 人 一 human, 体育 一 sport, 事情 一 fact, 船 一 ship 


种 类 词语 
英文 词 handcuffs 
+ —handcuffs 
5 个 最 近 的 中 文 词 9 44— shackles 
48 —tie 
WR 22 7J—screwdriver 
44 —rope 
种 类 词语 
英文 词 canoelst 
短跑 一 sprint 
独 木 舟 一 canoe 
5 个 最 近 的 中 文 词 皮 艇 一 kayak 
名 将 一 sports star 
皮 划 艇 一 kayak 


事情 一 fact, 锻炼 一 exercise, 体育 一 sport 

船 一 ship 

船 一 ship 

#4 4—famous, A—human, 官 一 official, #—military 
事情 一 fact, 锻炼 一 exercise, 体育 一 sport 


在 第 一 个 例子 中 , 模型 找到 了 handcuffs 的 最 好 的 中 文 对 应 词 手 钳 (handcuffs), 它 的 


义 原 标注 与 handcuffs 完全 相同 。 


而 且 第 二 接近 的 中 文 词 镍 钱 (shackles) EFF (hand- 
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cuffs) 的 一 个 同义词 , 并 且 有 看 相同 的 义 原 标注 。 因 此 , 我 们 的 模型 成 功 地 预测 出 了 所 有 
的 义 原 。 从 这 个 例子 的 预测 结果 中 , 我们 注意 到 我 们 的 模型 可 以 准确 地 预测 比较 普 明 的 
义 原 ， 如 用 具 一 tool 和 人 一 human,， 这 些 都 被 认为 是 很 难 预 测 的 。 

在 第 二 个 例子 中 ，canoeist 表示 划 独 木舟 的 人 ， 并 没有 准确 的 中 文 词 表示 这 个 意思 ， 
但 是 我 们 的 模型 仍然 在 前 5 个 预测 的 义 原 中 命中 了 这 个 词 在 知 网 中 被 标注 的 3 个 义 原 。 
通过 观察 与 之 最 相似 的 中 文 词 , 我 们 可 以 发 现 虽 然 这 些 词 都 没有 与 canoeist 有 相同 的 意 
思 , 但 是 它们 在 不 同 的 方面 与 canoeist 相关 。 例 如 , 短跑 “sprint” 和 canoeist 都 和 体育 相 
R, ProVeE TI FE FBI “exercise” FIVER “sport” KAS MIR. £4 (sports star) 有 体育 明 
星 的 意思 ,可 以 在 义 原 预测 中 提供 “人 一 human” 这 个 义 原 。 此 外 ,值得 注意 的 是 , 我 们 
的 模型 通过 独 木 舟 (canoe) 和 皮 艇 (kayak) 这 两 个 相近 词 预 测 了 “ 船 一 ship” 这 个 义 原 ， 即 
使 * 船 一 ship” 在 知 网 中 并 没有 标注 给 canoeist。 但 显然 ，“ 船 一 ship” 是 canoeist 的 一 个 合 
适 的 义 原 。 这 里 可 以 看 出 ， 由 于 知 网 是 专家 手工 标注 的 知识 图 详 ， 所 以 不 可 避免 地 会 错 
标 一 些 词语 , 这 也 在 某 种 程度 上 让 我 们 的 模型 的 效果 有 所 下 降 ，。 


5. 词 频 的 影响 


为 了 研究 目标 语言 词 的 词 频 对 跨 语言 词义 原 预 测 结 末 的 影响 , 我 们 将 测试 集 根 据 词 
频 分 成 了 4 个子 集 , 然后 分 别 计算 义 原 预 测 的 MAP 和 F, 分 数 。 不 同 词 频 下 器 语言 词义 
原 预测 的 评测 结 霖 如 表 6.10 所 示 。 


表 6.10 不同 词 频 下 跨 语 言词 义 原 预测 的 评测 结果 


义 原 预测 
: if 
方法 Fi AN 了 FT F, 
<200 30.35 21.83 
200~500 34.83 25.95 
BiLex 
501~2 500 40.21 28.62 
>2 500 47.56 35.80 
< 200 34.73 24,4] 
200~500 39.50 29.49 
CLSP-WR 
501~2 500 43.92 33.87 
>?2 500 AT.33 34.99 
<200 36.54 27.49 
200~500 41.46 30.09 
CLSP-SE 
501~2 500 45.35 35.01 
>2 500 49.34 37.16 


YE: 每 个 频率 范围 的 词 数 分 别 为 497. 458, 522 和 523. 
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从 表 6.10 中 ,我们 可 以 看 到 : 
C1) 目标 词 在 语 料 中 出 现 的 频率 越 高 ,那么 其 预测 的 义 原 效果 越 好 。 这 是 因为 高 频 
词 通常 有 更 好 的 词 嵌 入 ,而 这 对 义 原 预测 至 关 重 要 。 
(2) 我 们 的 模型 在 任何 词 频 下 都 明显 比 BiLex 效果 更 好 , 特别 是 低频 词 。 这 表明 通 
过 考虑 知 网 中 义 原 这 一 外 部 信息 , 模型 变 得 更 加 和 鲁 棒 且 可 以 胜任 稀 玲 场景 。 


6. 进一步 量化 分 析 


在 本 节 中 ,我 们 通过 两 个 典型 的 辅助 实验 进一步 定量 地 说 明 新 提出 的 模型 的 优越 性 。 

1) 双语 词典 构建 

所 有 模型 都 在 一 个 统一 的 语义 空间 中 学 习 了 双语 的 词 怠 入 , 这 里 我 们 使 用 翻译 第 一 
和 前 五 的 平均 精度 (PQ1 和 POS) 来 评估 模型 的 双语 词典 构建 的 效果 。 种 子 词 典 的 规模 
同样 为 {1 000, 2 000, 4 000, 6 000}。 不同 种 子 词曲 规模 下 的 双语 词典 构建 评测 结果 如 表 
6.11 所 示 。 

AR 6.11 中 ,我 们 可 以 看 到 ， 无 论 种 子 词典 的 规模 有 多 大 ， 我 们 的 模型 ， 特 别 是 
CLSP-SE 模型 , 在 双语 词典 构建 性 能 上 明显 比 BiLex 要 好 , 这 表明 我 们 的 模型 可 以 更 好 
地 学 习 双 语词 嵌入 。 


表 6.11 不 同 种 子 词典 规模 下 的 双语 词典 构建 评测 结果 


2) 词 相 似 度 计 算 
我 们 同样 在 单 语 词 相 似 度 计 算 的 任务 上 对 所 有 模型 进行 了 评估 ， 分 别 在 WordSim 


词典 构建 
方法 词 
iaia P@1 P@5 
1 000 6.48 10.78 
2 000 10.84 15.84 
BiLex 
4 000 19.48 23.96 
6 000 25.89 29.59 
1 000 6.89 11.28 
2 000 11.96 18.08 
CLSP-WR 
4 000 19.50 25.78 
6 000 25.83 31.03 
1 000 6.60 11.04 
2 000 11.90 18.62 
CLSP-SE 
4 000 19.26 25.11 
6 000 26.91 32.17 
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240 (WS-240) 和 WordSim 297 (WS-297) 数据 集 上 计算 中 文 词 相似 度 ， 在 WordSim 353 
(WS-353) 和 SimLex 999 (SL-999) 数据 集 上 计算 英文 词 相 似 度 。 单 语词 相似 度 计 算 评 测 
结果 如 表 6.12 所 示 。 


表 6.12 单 语词 相似 度 计算 评测 结果 


| 中 文 ( 源 语言 ) 英文 (目标 语言 ) 
方法 W5-240 WS-297 WS-353 SL-999 
BiLex 60.36 62.17 60.46 27.22 
CLSP-WR. 61.27 69.25 60.46 27.22 
CLSP-SE 60.84 65.62 62.47 28.79 


从 表 6.12 中 , 我 们 可 以 发 现 : 

CL) 我 们 的 两 个 模型 在 中 文 词 相似 度数 据 集 上 的 结果 优 于 BiLex。 它 表示 考虑 义 原 
信息 确实 有 助 于 学 习 更 好 的 单 语词 磐 入。 

(2) CLSP-WR 模型 并 没有 提高 英文 词 相似 度 的 结果 ， 但 是 CLSP-SE 模型 提高 了 。 
这 是 因为 CLSP-WR 模型 仅仅 对 中 文 词 戏 入 进行 了 后 处 理 ， 而 英文 词 甬 入 保持 不 变 ， 而 
CLSP-SE 模型 将 双语 对 齐 和 义 原 信息 融合 结合 在 一 起 , 这 使 得 英文 词 嵌 入 效果 与 中 文 词 
RAAR EEFT o 


6.5.3 小 结 


本 节 介 绍 了 器 语言 词义 原 预 测 这 一 新 任务 。 这 一 任务 非常 重要 ,因为 在 各 种 语言 中 
构建 基于 义 原 的 语言 知识 图 谱 有 助 于 更 好 地 理解 和 运用 这 些 语 言 。 本 市 还 提出 了 一 个 简 
单 有 效 的 模型 , 包括 三 部 分 即 单 语词 表示 学 习 、 跨 语 诗 词 表 示 对 章 和 基于 义 原 的 词 表 
WPA. 在 知 网 的 其 实数 据 集 上 的 实验 结果 表明 , 新 提出 的 模型 在 跨 语 言词 义 原 预测 方 
面 与 基线 方法 相 比 取得 了 一 致 且 显著 的 改进 。 
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本 章 介 绍 了 义 原 知识 图 谐 的 目 动 构建 以 帮助 语言 学 家 减少 工作 负担 , 提升 标注 质量 。 
我 们 提出 “词汇 的 义 原 预测 ”和 “ 跨 语言 的 词汇 义 原 预 测 ” 两 个 任务 , 并 设计 了 相应 的 解 
ATR. 有 效 地 帮助 义 原 知识 图 谱 应 对 新 词 新 义 快速 出 现 和 多 语言 义 原 知识 图 谱 构 建 的 
双重 挑战 。 


第 / 章 
语言 知识 的 计算 应 用 


在 前 面 的 章节 中 , 我 们 已 经 介绍 以 知 网 这 一 义 原 知识 图 谱 为 例 的 语言 知识 图 谱 的 表 
示 学 习 和 构建 。 而 知 网 这 样 的 语言 知识 图 谱 中 让 富 的 知识 信息 , 能 够 有 效 改善 自然 语言 
处 理 中 的 很 多 下 游 任务 。 本 章 将 以 中 文 版 LIWC 词典 扩展 和 神经 语言 模型 为 例 , 介绍 义 
诛 知 识 的 应 用 。 有 具体 来 说 : 
(1) LIWC (Linguistic Inquiry and Word Count) [157] 是 一 个 词 频 计数 工具 , 它 根据 由 
粗 到 细 的 人 工 标注 的 标签 对 词 进行 分 类， 最 初 用 于 处 理 实验 心理 学 中 的 文本 分 析 问 题 。 
目前 ， 已 经 被 广泛 应 用 在 社会 科学 文本 量化 分 析 中 , 尤其 是 很 多 交叉 应 用 领域 ， 如 人 口 
统计 学 1 、 健 康 诊断 26 、 社 会 关系 等 中 。 汉 语 是 世界 上 使 用 人 数 最 多 的 语言 40 ， 原 
始 的 LIWC 词典 是 英文 版 的 , 目前 中 文 版 的 LIWC BS 已 经 发 行 。 然 而 , 中文 版 的 LIWC 
词典 的 词 数 极其 有 限 , 仅仅 包含 7 000 个 词 中。 根据 文献 [113], 汉语 总 共有 人 至少 56 008 
个 词 。 此 外 , LIWC 词典 没有 考虑 互联 网 上 不 断 出 现 的 新 词 。 因此 , 很 有 必要 对 LIWC 词 
典 进行 扩展 。 人 工 标 注 是 拓展 LIWC 的 一 种 方法 , 但 非常 耗 时 费力 。 如 何 借助 计算 机 加 
快 LIWC 词典 的 扩展 将 非常 有 意义 ,因此 本 章 第 一 部 分 将 介绍 利用 义 原 知识 目 动 化 拓展 
LIWC 词典 的 方法 。 
(2) BAR (Language Modeling, LM) 由 在 衡量 一 个 词 序 列 出 现 的 可 能 性 ， 它 将 
词 序 列 的 流利 程度 建 模 为 这 个 词 序 列 符合 人 类 语言 应 用 的 概率 。 在 目 然 语言 处 理 中 的 机 
器 翻译 2,3 引 、 信 息 检 索 L177.137,161 及 文本 摘要 (8175) 等 众多 领域 中 ,语言 模型 都 是 一 
个 最 基础 的 组 成 部 分 。 所 有 的 语言 模型 都 假设 词 是 基本 的 单位 , 所 以 均 只 在 词语 的 层面 
上 进行 序列 模式 的 拟 合 。 然 而 这 种 假设 对 于 某 些 情况 并 不 一 定 适 用 。 让 我 们 来 考虑 下 面 
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这 个 例句 : 
去 年 美国 的 贸易 赤字 估计 可 达 400 1 


MIN BFE REI WP Se PRAT Bia, 之 后 表 想 到 应 该 壤 入 一 个 货币 单 
位 。 基 于 这 个 句子 摘 述 的 国家 古 美 国 的 事实 ， 人 们 大 概 能 够 确定 应 该 项 入 美国 的 货币 单 
位 ， 并 进而 确定 这 个 词 应 该 是 美元 。 在 这 里 ， 单 位 、 货 币 、 美 国都 可 以 被 认为 是 美元 的 
基本 语义 单位 。 而 这 一 思考 过 程 并 不 在 传统 的 语言 模型 考虑 范围 之 内 。 也 了 吏 是 说 ， 虽 和 然 
在 大 多 数 情况 下 , 词语 可 以 被 认为 是 语言 的 基本 单位 , 但 它们 并 不 一 定 是 基本 的 语义 单 
位 。 我 们 认为 显 式 地 拟 合 基 本 语义 单位 可 以 提升 模型 的 效果 及 可 解释 性 。 而 义 原作 为 最 
基本 的 语义 单位 , 可 以 在 上 述 过 程 中 发 挥 作 用 。 本 章 第 二 部 分 将 详细 介绍 义 原 知识 在 神 
经 语言 模型 中 的 应 用 。 


7.2 义 原 驱动 的 词典 扩展 


前 面 提 到 , 使 用 计算 机 技术 自动 扩展 LIWC 词典 非常 有 必要 和 价值 。 然而 自动 扩展 
LIWC 词典 会 遇 到 一 词 多 义 和 不 易 区 分 的 问题 。 一 词 多 义 意味 着 一 个 词 或 短语 有 多 个 意 
思 , 因此 需要 将 它们 归 入 多 个 不 同 的 类 。 不易 区 分 指 的 是 很 多 类 在 LIWC 中 被 划分 得 非 
常 精细 ， 导 致 区 分 它们 非常 困难 。 

此 外 , LIWC 一 个 重要 的 特征 是 , 各 类 构成 了 一 个 具有 层次 结构 的 树 。 因 此 , 层次 分 
类 算法 , 如 分 层 支 持 向 量 机 B89, 可 以 很 容易 地 被 应 用 到 LIWC 词典 自动 拓展 中 。 然而 这 
些 方法 往往 太 过 党 统 , 没有 考虑 词 的 多 义 性 和 LIWC 的 类 不 易 区 分 的 性 质 。 

义 原 知识 可 以 较 好 地 解决 以 上 问题 。 对 于 一 词 多 义 的 问题 ， 知 网 为 多 义 词 的 不 同意 
思 标 注 了 不 同 的 义 原 ， 这 使 得 给 不 同 的 意思 分 配 不 同 的 标签 成 为 了 可 能 。 对 于 词类 不 
易 区 分 的 问题 ,， 因为 义 原 可 以 精确 地 刻画 和 描述 词义 , 因此 其 在 区 分 词类 方面 也 会 很 有 
价值 。 


7.2.1 相关 工作 


在 这 一 部 分 中 , 我 们 首先 介绍 一 些 以 往 基 于 LIWC 词典 进行 的 工作 , 然后 对 近期 在 
层次 分 类 方面 的 研究 进行 一 个 综述 。 
LIWC 原始 的 英文 版 本 是 定量 文本 分 析 领 域 较 有 名 的 词典 之 一 。 它 最 早 于 20 世纪 
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90 年 代 被 提出 ， 后 来 几经 修改 ， 最 新 版 本 发 布 于 2015 年 453 。 在 英文 版 LIWC 的 帮助 
下 ,许多 领域 在 过 去 的 几 年 中 都 有 了 大 量 的 科学 发 现 。 例 如，Mehl 等 人 12 发 现 了 男性 
与 女性 每 天 都 会 说 出 约 16 000 个 词语 , 改变 了 人 们 认为 “女性 更 加 健谈 ”的 看 法 ; Bucci 
等 人 PI 展示 了 词语 计数 的 方法 往往 比 临 床 医生 的 报告 在 治疗 效果 提升 方面 更 不 具有 偏 
In] HE; Rohrbaugh 等 人 89 发现 , “我 们 ”这 个 词 的 使 用 暗示 了 亲密 关系 ,甚至 能 够 提升 
心力 衰竭 的 预测 效果 ; Schwartz ACT 以 开放 式 词 汇 (open-vocabulary) 的 方式 分 析 了 
社交 媒体 上 人 们 的 性 格 、 性 别 和 年 龄 。 

由 于 英语 版 LIWC 的 成 功 与 普及 , Huang FAB 手动 创建 了 第 一 版 中 文 LIWC, 现在 
中 文 LIWC 也 有 越 来 越 多 的 应 用 场景 , 尤其 是 基于 中 文 LIWC 开展 了 相关 工作 !'60,105,215。 
然而 ， 由 于 中 文 LIWC 是 手动 标注 的 词典 ， 筷 的 一 个 严重 不 足 融 在 于 词典 只 包 舍 了 不 到 
7 000 个 词 , 相 比 于 常用 词 总 数 来 说 少 之 又 少 。 因此, 自动 扩展 LIWC 词典 非常 有 必要 。 

据 我 们 所 知 ， 先 前 大 多 数 词典 扩展 的 工作 均 是 基于 特征 工程 技术 3:74) 开展 的 。 因 
此 , 以往 的 工作 需要 大 量 的 知识 去 为 不 同 的 词典 设计 不 同 的 特征 。 同 时 很 多 这 样 的 工作 
无 法 被 规范 化 为 一 个 分 类 问题 S93, 外 。 由 于 LIWC 中 不 同 的 类 别 标注 形成 了 一 个 树 状 层 
级 结构 , 我 们 可 以 采用 层次 分 类 的 方法 来 目 动 扩展 LIWC。 本 实验 作为 LIWC 扩展 的 第 
一 次 尝试 , 我 们 认为 在 层次 分 类 问题 上 的 工作 与 LIWC 扩展 更 加 相关 ,所 以 更 适合 作为 
基线 模型 来 进行 比较 。 

对 于 层次 分 类 的 方法 ,Silla SAY! 在 不 同 领 域 的 各 种 方法 中 进行 了 总 结 ， 并 把 它 
们 归 入 五 大 类 别 中 。 扁 平分 类 器 (flat classifier) O 是 处 理 层次 分 类 问题 最 简单 的 方法 。 
在 这 一 方法 中 ， 分 类 器 完全 无 视 了 层次 关系 ， 只 在 叶子 节 氮 对 类 别 进 行 预测 。 逐 局 部 
分 类 器 (local classifier per node) 52 训练 了 一 个 二 分 类 的 分 类 器 。 逐 父 节 点 局 部 分 类 器 
(local classifier per parent node) H7! 对 每 一 个 类 别 的 父 节 点 训练 了 一 个 多 类 别 分 类 器 , 以 
MSC AAP AEST PA. 逐 层 局 部 分 类 器 (local classifier per level) 83) BERT AJ 
部 分 类 器 相似 , (LE ENE EVP SRADRSE, MAREN TR. Blt 
类 器 (global classifier) L101 将 层次 结构 视 为 一 个 整体 来 训练 分 类 模型 。 

近年 来 , 也 有 不 少 用 神经 网 络 来 解决 层次 分 类 问题 的 答 试 。Cerri SAS 在 每 一 层 
都 训练 了 一 个 多 层 感知 机 , 并 使 用 与 上 一 层 相 关 的 神经 网 络 的 输出 结果 作为 与 下 一 层 相 
关 的 神经 网 络 的 输入 。Karn 等 人 198) 提出 使 用 RNN 编码 -解码 器 (RNN encoder-decoder) 
来 处 理 实体 提 及 分 类 (entity mention classification) 问题 。 编 码 - 解 码 占 通过 在 层次 结构 
中 生成 从 顶端 节点 到 叶子 节点 的 路 径 来 进行 分 类 任务 。 然 而 ,由 于 多 义 性 与 低 区 分 度 的 
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问题 ， 这 些 方法 都 不 适用 于 LIWC 的 扩展 。 因 此 , 我 们 提出 通过 整合 义 原 信息 来 进行 扩 
展 的 想法 。 


7.2.2 ”任务 设 定 


在 这 一 小 三, 我 们 自 先 给 出 一 个 LIWC 中 词 和 词类 的 说 明 性 例子 , 然后 给 出 LIWC 
词典 拓展 问题 的 定义 。 

图 7.1 是 一 个 说 明 apex 的 LIWC 标签 的 例子 。 可 以 看 出 , 词 apex 属于 两 个 父 种 类 ， 
BN PersonalConcerns 和 relative。 这 两 个 父 种 类 都 有 一 个 子 种 类 , 分 别 是 achieve 和 space. 


TLS 
(apex) 
AT eee 
六 人 关注 词 = 
(Personal Concerns) | 相对 问 
(relative) 
空间 词 
(space) 


图 7.1 例 词 顶 点 和 它 在 LIWC 中 的 标签 


如 图 7.1 所 示 , LIWC 中 的 词类 被 结构 化 地 组 织 了 起 来 , 并且 LIWC 中 的 每 个 词 在 
每 一 层级 都 可 以 归属 不 止 一 个 标签 。 换 句 话 说 ,每 个 词 不 必 从 属于 一 个 叶子 类 。 这 往往 
称 作 非 强 制 性 的 预测 。 因 此, LIWC 词典 拓展 是 一 个 非 强 制 性 的 多 标签 分 类 的 问题 。 

形式 上 , 我 们 按照 现 有 的 层次 分 类 问题 框架 1, 将 LIWC 词典 拓展 问题 表述 为 三 
元 组 (T, MPL, PD), 其 中 : 

。 T 说明 类 别 被 安排 成 了 一 个 树 状 结构 。 
MPL(Multiple Path of Labels) 等 价 于 术语 分 层 多 标签 (term hierarchical multil- 
abel)。 
PD(Partial Depth) 用 于 说 明 一 些 实 例 局 部 实例 标签 , 例如， 种 类 标签 在 某 一 些 级 
别 上 是 未 知 的 。 


Bost in) 


(achieve) 
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7.2.3 ”算法 模型 


在 这 一 部 分 中 , 我 们 将 介绍 基于 义 原 注意 力 机 制 的 层次 解码 器 架构 (hierarchical de- 
coder with sememe attention，HDSA) 。 它 采用 了 序列 到 序列 解码 器 来 进行 层次 分 类 ， 并 
利用 注意 力 机 制 将 义 原 信息 融入 ， 以 便 更 好 地 扩展 LIWC 词典 。 接 下 来 ,我 们 首先 介绍 
TUM Ta] ty eR TS AG as. 然后 提出 在 解 伍 规 中 使 用 注意 力 机 制 来 将 义 原 信息 整合 
进 我 们 的 模型 。 

1. 层次 解码 器 

我 们 将 层 侈 分 类 任务 建 模 为 一 个 友 列 到 序列 解 公 的 任务 , 其 中 输入 为 目标 词 的 词 散 
入 ， 输 出 为 层次 标签 。 在 上 自然 语言 处 理 中 ,序列 到 序列 模型 已 经 在 句子 建 模 的 相关 工作 
中 被 大 量 使 用 :和 。 

形式 化 地 ， 我 们 令 Y 表示 标签 集合 , 令 rr :YY 一 了 代表 节点 间 的 父子 关系 ， 其 中 
wy) Æ y E Y 的 父 贡 点。 对 于 一 个 词 z, 它 的 标签 形成 一 个 树 状 层次 。 于 是 我 们 可 以 选取 
每 一 条 从 根 节 点 到 叶子 节点 的 路 径 ， 并 将 路 径 转 化 为 一 个 序列 y = (yyy) 其 中 
A(t) = yi-1, Vi € [2, L], LEBRAYWNERM. 用 这 样 的 方法 , SERS (Hierarchical 
Decoder, HD) 对 标签 y; BEAT IUMIIN, E BERR ESCA a EP (Y1,°°* a Ys—1) 出 现 的 概 
率 加 入 计算 过 程 中 。 具 体 地 , 解码 器 将 标签 序列 yy 出 现 的 概率 定义 为 

L 
P(y) = [] Pw | (yis°°* ,Yi-1), 2) (7.1) 
常见 的 解码 器 为 LSTM 8, LSTM 定义 每 一 个 条 件 概率 为 
P(yil(yi,--- > Yi-1), £) = f(Yi-1; 5i) = 0; o tanh(s;) (7.2) 
其 中 ， 
Si = fi © Si—-1 + Zi O ŝi, 
si = tanh(W s - |s;-1, y;_1| + bs), 
tanh( [si-1 Yi—1| + bs) (7.3) 
Oi = o(W, k [$i-1, Y;_1| 十 bz), 
fi=o(Wy: [8i-1, Yi_-a] + br) 
其 中 ，。 表示 两 个 癌 量 逐 点 相 乘 ，c 表示 Sigmoid MA, si 表示 LSTM 的 第 i 个 隐 状 
态 。 W ss Wos Wzn Wy 是 权重 和 矩阵， bs. bo b;、 by 是 侦 置 问 量 。 Ois Zis f; 分 别 是 输 
出 门 Coutput gate layer) 、 输 入 门 Gnput gate layer) Fits!) (forget gate layer). 
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A T fem] lial kA, 我 们 定义 初始 状态 so = ers 其 中 es 表示 词 x 的 词 艇 入。 也 就 是 
说 ， 我 们 把 词 能 入 作为 解码 器 的 初始 状态 。 之 后 ， 层 次 解码 器 依次 输入 标签 舱 入 来 进行 
解码 。 更 具体 来 讲 , 我 们 通过 一 个 杠 入 矩阵 V e RIV xd 将 原始 的 词 转化 为 词 甬 入 ， 其 
中 du 是 词 嵌 入 的 维度 。 然 后 在 每 一 个 时 间 步 中 , RATA RERA EE Y € RY 
FAD SERA y 其 中 dy 是 标签 骨 入 的 维度 。 在 这 里 , 词 艇 入 是 预 训练 好 有 旦 在 训练 过 
程 中 国定 的 。 

总 的 来 说 , 层次 解码 器 能 够 从 词 舱 入 中 解码 出 词语 的 标签 层次 结构 。 在 每 一 个 时 间 
步 中 , 它 能 够 根据 之 前 预测 出 的 标签 预测 当前 的 标签 。 


2. 基于 义 原 注意 力 机 制 的 层次 解码 器 


层次 解码 器 使 用 词 嵌 入 作为 初始 状态 , 然后 以 序列 生成 的 方式 来 预测 词语 的 标签 层 
次 结构 。 然 而, 每 一 个 在 层次 解码 器 模型 中 的 词 只 有 一 个 同 量 表示 , 这 是 远 远 不 够 的 , 因 
为 多 义 性 和 低 区 分 度 难 以 只 用 一 个 实 值 癌 量 来 很 好 地 解决 。 因 此 , 我 们 提出 将 义 原 信息 

由 于 不 同 的 义 原 标注 表示 了 一 个 词 不 同 的 意思 , 在 预测 词语 标签 时 ,不同 的 义 原 应 
该 有 不 同 的 权重 。 进 一 步 地 ， 即 使 是 同一 个 义 原 ， 它 在 不 同 的 类 别 下 也 应 该 有 不 同 的 权 
重 。 以 图 7.2 中 的 词 顶 点 为 例 ， 义 诛 位 置 在 相对 词 的 矢 别 下 应 该 有 相对 高 的 权重 ， 但 在 
个 人 关注 词 的 类 别 下 , 吏 应 该 有 一 个 较 低 的 权重 , 因为 它 代 表 的 是 一 个 不 太 相 关 的 词义 : 
几何 中 的 顶点 。 

为 了 达到 上 述 目的 , 我 们 提出 在 解码 词语 标签 序列 时 使 用 注意 力 机 制 ,对 义 原 信 
居 进 行刺 合 。 基 于 义 原 注意 力 机 制 的 层次 解 代 器 (Hierarchical Decoder with Sememe At- 
tention, HDSA) 的 结构 如 图 7.3 Ara. 

与 层次 解码 器 类 似 , 我 们 将 词 髓 入 作为 解码 器 的 初始 状态 。 两 者 的 主要 区 别 在 于 , 现 
在 的 条 件 概率 定义 为 


Ply: | (yi, O sii) £, Ci) 一 f (lyi;_1, ca], 8i), (7.4) 


HA, c 是 上 下 文 向 量 (context vector)， 它 依赖 于 由 义 原 嵌入 矩阵 S e RSi 得 到 的 
ERAH {hi ,hn}。 更 具体 地 ， 上 下 文 向 量 c; ENBRA h; 的 加 权 和 ， 即 


N 
Ci = X aijhj (7.5) 
q=1 


=æ = = = -= = = 


= “a a 


1 Sensei(acme) ı (Sense,(vertex) | 
w 


(location) 


=- = = -æ E sy 


on 


&, 
高 于 正常 
(GreaterThanNormal) 


图 7.2 例 词 顶 点 在 知 网 中 的 义 原 标注 


Label y Label y Label ys EOS 
pois 
<GO> / Label y Label y Label ys 
( 词义 向 量 


7.3 ”HDSA 的 结构 
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每 一 个 义 原 hy 的 权重 ai 被 定义 为 


ple) (7.6) 
S “ exp(eix) 
k=1 
其 中 : 
eij =v" tanh(W1y;_, + Woh,;) (7.7) 


BCA AR GT RT OUR RRA hy 与 当前 预测 标签 y; 的 相关 性 。 这 里 , ve R’ FAH, Wi € 
R°” 及 Wac R"*% EREHE, a 是 注意 力 模型 中 隐 层 的 维度 。 

Bi Lait, 在 每 一 个 时 间 步 , HDSA 在 预测 词语 标签 时 都 会 选择 一 个 义 原来 关注 。 
这 样 , 不 同 的 义 原 就 可 以 有 不 同 的 权重 , 而 且 相 同 的 义 原 在 不 同 的 类 别 下 也 可 以 有 不 同 
的 权重 。 有 了 义 原 注意 力 机 制 的 帮助 ，HDSA 可 以 处 理 多 义 性 和 低 区 分 度 的 问题 ， 所 以 
也 就 能 够 更 准确 、 更 易 理 解 地 扩展 LIWC 词典 。 


3. 训练 目标 与 实现 细节 
这 里 , 我 们 展示 模型 的 训练 目标 与 实现 细节 。 目 标 函数 用 交叉 炉 来 定义 
T 
J = -FD Ym lox Yinn)) (7.8) 


n=] m 


其 中 , ymn € {0,1} 表示 词 w 是 否 拥有 标签 Ym’ Yon 表示 用 式 (7.4) 计算 得 到 的 词语 wn 

拥有 标签 的 概率 , T 是 总 词 数 。 我 们 使 用 Adam SIE! 来 自动 调整 每 一 个 参数 的 学 

习 率 。 

问题 。 我 们 依据 经 验 设 置 了 一 个 阔 值 5, 并 且 仅 当 一 个 词语 的 标签 序列 y 满足 以 下 约束 : 
log P(y) > 0 (7.9) 

AK y 赋值 给 这 个 词语 。 我 们 在 LSTM 中 使 用 循环 失 活 (recurrent dropout) 273) 方法 和 

层级 正则 化 (layer normalization) 106] 方法 来 防止 过 拟 合 。 


7.2.4 ”实验 分 析 


L. 数据 集 
我 们 选择 中 文 LIWC (EAD BMWA, CHIRK 3. R71 列 出 了 它 的 统计 信 
恩 。 义 原 知识 仍 从 知 网 中 绪 得 , 词 和 义 原 艇 入 的 千 习 也 仍 使 用 SogouT 语 料 。 
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表 7.1 LIWC 词典 统计 结果 


合计 6 828 51 
级 别 1 6 828 10 
级 别 2 6 363 34 
级 别 3 589 7 
2， 基 线 模 型 
由 于 LIWC 词典 拓展 是 一 个 层次 分 类 问题 ， 我 们 主要 选择 层次 分 类 算法 作为 基线 
模型 。 


e Top-Down k-NN(TD k-NN): 在 父 标签 上 自 上 而 下 地 使 用 kNN 进行 决策 。 

e Top-Down SVM (TD SVM): 在 父 标签 上 自 上 而 下 地 使 用 SVM 进行 决策 。 

© 结构 化 SVMS: 一 种 使 用 了 切割 平面 方法 的 边缘 重新 调整 的 结构 化 文 持 癌 量 机 。 

e CSSA (Condensing Sort and Select Algorithm) 03: 一 种 可 以 应 用 在 树 状 和 有 问 无 
环 图 状 层 次 结构 的 层次 分 类 算法 。 

e HD (Hierarchical Decoder): 没有 使 用 义 原 注意 力 的 层次 解码 器 。 


3. 实验 设置 


词 嵌 入 和 义 原 灵 入 已 经 预 训练 好 ,， 并且 在 整个 训练 过 程 中 被 不 断 调整 。 因 为 义 原 的 
语义 被 词 所 表示 ， 我 们 直接 使 用 其 表示 词 的 词 嵌 入 作为 义 原 颈 和 入。 我们 使 用 Skip-gram 
模型 030 SYA A RRA, FERED 300， 窗 口 大 小 为 5， 负 采样 数 为 5。 我 们 剔除 了 
LIWC 词典 中 在 语 料 中 出 现 次 数 小 于 50 的 词汇 。 对 于 标签 嵌入 , 我们 对 其 进行 随机 初始 
化 ,并 使 用 反问 传播 在 训练 中 更 新 它们 的 值 。 

为 了 进行 公平 的 比较 ， 所 有 的 模型 都 使 用 相同 的 嵌入 。 对 于 TD kNN, k = 5。 对 
于 TD SVM 和 结构 化 SVM， 正 则 化 项 C = 1， 收 敛 公差 tol = 0.01。 对 于 CSSA, 每 
一 个 样 例 在 预测 时 被 提供 了 4 个 标签 。 对 于 自 上 而 下 的 方法 ， 当 选择 子 节 点 时 ， 每 一 
个 例子 只 有 一 个 标签 。 对 于 HDSA 模型 ， 我 们 设置 a 和 dy 为 300。 当 预测 词 的 标签 
时 ， 我 们 设置 束 搜索 的 窗口 大 小 为 5, 6 = -1.6。 对 于 Adam 算法 ， 设 置 初始 学 习 率 为 
a= 0.001, B1 = 0.9, B2 = 0.999，e = 10-8。 

当 转 换 树 状 标签 为 标签 序列 时 ， 如 果 一 个 词 在 树 状 结构 中 有 不 止 一 个 路 径 ， 则 我 们 
将 它 转 化 为 一 个 多 标签 的 序列 。 例 如, 如 果 一 个 词 有 标签 Yi s Yin Yia M yio 其 中 (wi,) = 
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Yiz, T(Yia) = Yiz Tyi) = Yr, 则 我 们 将 其 转换 为 两 个 序列 ， 即 y = (Yi, Yiz Yis) 和 vy 
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(Yir: Yio Yia) 因此, 一 个 词 在 变换 后 可 以 匹配 多 个 序列 。 


4. 评估 万 式 


我 们 使 用 广泛 使 用 的 微 平均 F (Micro-Fi) FIY F, (Macro-F,) 及 相应 的 精度 和 
召回 率 去 评估 所 有 方法 的 表现 。 微 平均 F (Micro-F,) 是 一 种 常见 的 用 来 评估 分 类 算法 
的 度量 , 它 赋予 每 个 实例 相同 的 权重 。 宏 平均 F (Macro-F,) 也 是 一 种 常见 的 度量 , CI 
予 每 个 标签 相同 的 权重 。 然 而 , 这 可 能 会 导致 不 稳定 的 问题 ,因为 LIWC 中 的 标签 是 非 
常 不 平衡 的 ,一 些 标签 有 1 000 个 实例 , 另 一 些 只 有 不 到 40 个 。 因此, 我 们 使 用 带 有 权 
重 的 微 平均 F, (Micro-F,) (W-M-F\) 去 评估 模型 的 表现 。 


5. 实验 结 果 
K 7.2 和 表 7.3 列 出 了 所 有 基线 模型 和 我 们 的 模型 的 评估 结果 。 


模型 


TD k-NN 
TD SVM 
结构 化 SVM 
CSSA 
HD 
HDSA 


模型 


TD k-NN 
TD SVM 
结构 化 SVM 
CSSA 
HD 
HDSA 


总 体 
Micro-F]  W-M-F) 
0.6198 0.6169 
0.628 3 0.610 6 
0.6444 0.6448 
0.6511 0.6319 
0.7023 0.7000 
0.722 4 0.720 4 
表 7.3 

总 体 
精度 召回 率 
0.7230 0.5494 
0.7297 0.5422 
0.660 7 0.634 1 
0.6168 0.6910 
0.7216 0.6859 
0.7473 0.7001 


第 一 层 
Micro-Fy W-M-F) 
0.675 6 0.677 2 
0.685 8 0.678 5 
0.701 1 0.701 0 
0.688 0 0.686 4 
0.749 5 0.747 6 
0.763 6 0.761 6 


第 一 层 

wi BE 召回 率 
0.7718 0.6069 
0.7707 0.616 1 
0.7193 0.6843 
0.6068 0.7973 
0.7767 0.723 8 
0.7976 0.7311 


表 7.2 Micro- 和 W-M-F, 在 每 一 层 的 结果 


第 二 层 
Micro-F, W-M-F} 
0.571 6 0.564 6 
0.576 6 0.555 7 
0.591 9 0.591 9 
0.617 2 0.591 4 
0.665 8 0.661 4 
0.692 7 0.687 4 


W-M 在 每 一 层 的 平均 精度 和 召回 率 


第 二 层 

精度 召回 率 
0.6912 0.4945 
0.6988 0.4822 
0.605 9 0.586 2 
0.6306 0.606 2 
0.6711 0.6604 
0.7052 0.6804 


第 三 层 
Micro-Fı W-M-F 
0.488 4 0.485 8 
0.450 3 0.414 2 
0.572 5 0.571 8 
0.472 9 0.432 2 
0.611 3 0.606 4 
0.6270 0.623 4 

第 三 层 

精度 召回 率 

0.490 5 0.484 6 
0.585 5 0.330 8 
0.578 8 0.576 9 
0.579 7 0.369 2 
0.605 1 0.616 9 
0.6354 0.630 8 
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我 们 发 现 : 

(1) 显然 HD 和 HDSA 在 整体 表现 上 比 所 有 基线 模型 都 要 好 。 这 说 明 将 层次 结构 变 
换 为 序列 和 引入 神经 网 络 分 类 模型 是 非常 有 必要 和 有 效 的 。 在 每 一 层 上 , HD 和 HDSA 
也 比 其 他 算法 有 优势 。 然而，CSSA 的 W-M-F, ARIY F (Macro-F; ) HE HD #1 HDSA 
在 每 一 层 都 要 低 。 因 此 , 在 LIWC 词典 拓展 上 , HD 和 HDSA 依然 比 CSSA 要 好 。 

(2) HDSA E HD 要 好 大 概 2%， 这 说 明 在 LIWC 词典 拓展 任务 中 将 义 原 信息 引入 
解码 器 模型 是 非常 有 效 的 。 这 主要 是 因为 义 原 可 以 表示 一 个 词 的 不 同意 思 , 这 帮助 我 们 
的 模型 解决 了 一 词 多 义 和 词 类 难以 区 分 的 问题 。 换 句 话说 , HDSA 在 义 原 信息 的 帮助 下 
可 以 拓展 出 一 个 更 加 容易 理解 和 准确 的 LIWC 词典 。 

(3) 通过 比较 HDSA 和 传统 的 自 上 而 下 的 方法 , 如 TD kNN 和 TD SVM， 我 们 可 
以 发 现 它们 的 准确 率 之 差 在 第 一 层 只 有 大 概 2%, 而 到 第 三 层 时 增加 到 大 约 5%. BWR 
看 , 这 说 明了 HDSA 更 有 能 力 阻止 反问 传播 时 出 现 的 误差 。 

对 于 词典 来 说 ,其 准确 性 可 能 比 完整 性 要 更 加 重要 ,也 就 是 说 准确 率 比 召回 率 更 加 
重要 。 而 我 们 的 模型 在 这 样 的 条 件 下 也 更 加 适合 ， 因 为 我 们 可 以 通过 提高 阔 值 来 获得 一 
个 更 加 准确 的 词典 。 此 外 ， 宏 平均 Fy (Macro-F,) 和 W-M- 分 数 也 在 调整 闽 值 时 发 生 
了 变化 。 因 此 , 我 们 在 图 7.4 中 说 明了 HDSA 中 5 的 作用 。 


图 7.4 6 在 HDSA 模型 中 对 宏 平 均 Fı (Macro-Fi), W-M-Fi. W-M 平均 精度 和 召回 率 的 影响 


我 们 可 以 看 到 6 对 精度 和 召回 率 有 直接 影响 。 在 6 从 -2 增加 到 -1 的 过 程 中 , 精 
度 从 71.8% 增加 到 了 79.1%, 而 召回 率 从 72.9% 降低 到 了 64.5%。 这 符合 我 们 的 预期 ， 因 
为 相 较 于 较 低 的 5, 更 高 的 6 意味 着 更 加 严格 的 标准 ， 筛 选 掉 更 多 的 标签 。 
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和 精度 及 召回 率 的 变化 不 同 的 是 ， 宏 平均 Fı (Macro-F,) 和 W-M-F, FRAME ô 
的 增加 而 增加 。 两 者 大 约 只 变化 了 土 1%。 这 很 容易 理解 ， 因 为 精度 的 增加 和 召回 率 的 减 
少 相 互 抵消 ,因此 波动 很 小 。 这 也 说 明 我 们 的 模型 非常 鲁 棒 ， 并 且 我 们 选择 的 56 范围 是 
合适 的 。 


6. 案例 研究 


表 7.4 展示 了 一 些 HDSA 模型 由 于 引入 义 原 而 正确 预测 了 词语 的 标签 , 但 HD 预测 
失败 的 例子 。 同 时 , 它 也 展示 了 义 原 也 可 能 导致 HDSA 预测 失败 。 对 于 每 一 个 词 , 我 们 
列 出 它 被 标注 的 义 原 、HD 的 结果 、HDSA 的 结果 及 真实 结果 。 为 了 简化 , 这 里 用 y ~ y 
来 表示 yi FE yo 的 父亲 。 


表 7.4 词语 、 义 原 、HD 预测 结果 和 HDSA 预测 结果 的 例子 


词 义 原 HD 预测 HDSA 预测 真实 标签 
恋人 交往 一 associate， social<—friend social«—friend 
socialfriend 
(sweetheart) 人 一 human, 爱恋 一 love affect—posemo affect—posemo 
ae f TenseM funct«—TenseM 
unct+— Lense Mi <— uncte LenselVl<— 
今天 (today) 现在 一 present， relative* 一 time 


PresentM, relative-time PresentM, relativ<-time 
特定 一 specific, 日 一 day 


多 —village, 市 一 city， PersonalConcerns 


市 镇 (town) relativ--space relativ-—space 
地 方 一 place «work 
无 望 , | 
w miserable cogmech+—discrep  affect«~~negemo+—sad affect-—-negemo+—sad 
(hopeless) 
多 种 一 various funct«—negate funct—quant funct«—negate 
(all kinds of) 
KR (sky) 23 ta\—airspace relativetime relativ—-space relativ—time 
联盟 结盟 一 ally, PersonalConcerns social, PersonalConcerns 
(alliance) 团体 一 community work PersonalConcerns—work work 
. 部 件 一 part， 
泪珠 、 afftect-—negemo affect -negemo, 
体液 一 BodyFluid， afftect-—negemo+—sad 
(teardrop) «sad biohealth 


动物 一 AnimalHuman 


从 表 7.4 中 , 我 们 可 以 看 到 : 

(1) 恋人 和 今天 都 有 多 个 层次 标签 , 但 HD 只 预测 出 了 部 分 结果 。 这 主要 是 因为 词语 
的 多 义 性 。 相 比 而 言 ， 由 于 有 义 原 的 帮助 , 如 恋人 的 义 原 爱恋 和 今天 的 义 原 现在 , HDSA 
成 功 给 出 了 正确 的 预测 络 果 , 表明 义 原 确实 能 够 帮助 解决 LIWC 词典 扩展 中 一 词 多 义 的 
问题 。 


FE + 
E 
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(2) HD EMM TEMEER EN EER. 这 可 能 是 因为 词 岁 入 质量 问题 。 相 
有 反 地 ， 由 于 义 原 提供 的 外 部 信息 ， 如 市 镇 的 义 原 地 方 和 无 望 的 义 原 莫 惨 ，HDSA 可 以 准 
确 地 对 其 进行 预测 。 
出 了 正确 的 预测 结果 。 


(3) 由 于 低 区 分 度 的 问题 , HDSA 可 能 会 在 区 分 不 同 的 类 别 时 产生 错误 。 词 种 种 和 
天 空 就 是 两 个 例子 。 Fb, 因为 义 原 可 以 耳 接 表示 出 词语 的 意思 , 如 多 种 和 空域 , HD 给 


(4) HDSA 对 于 词 联 盟 和 泪珠 的 预测 结果 部 分 正确 , 但 HD 给 出 了 完全 正确 的 预测 
结果 。 这 主要 是 因为 义 原 有 时 候 可 能 产生 误导 ， 如 联盟 的 义 原 团 体 和 泪珠 的 义 原 体 液 。 
我 们 会 在 未 来 的 工作 中 考虑 义 原 之 间 的 关系 ， 从 更 好 地 利用 义 原 信息 。 


我 们 可 以 从 以 上 的 观察 总 结 出 ， 义 原 对 LIWC 词典 的 扩展 有 着 显著 的 正面 作用 , 但 
同时 我 们 也 发 现 HDSA 仍然 有 不 足 之 处 , 我 们 将 在 未 来 尝试 进行 改进 。 
7.2.5 小结 


这 一 节 介 绍 了 将 义 原 知识 用 于 中 文 LIWC 词典 扩展 的 工作 。 通过 使 用 注意 力 机 制 在 
序列 到 序列 的 模型 中 引入 义 原 信息 , 可 以 部 分 解决 在 LIWO 词典 扩展 中 一 词 多 义 和 词 类 
不 易 区 分 的 问题 。 在 实验 中 , 我 们 把 融入 义 原 的 模型 和 现 有 的 模型 进行 比较 , AH E 
善 的 性 能 提升 ， 此 外 本 节 也 分 析 了 几 个 案例 来 证 明 义 原 的 有 效 性 。 这些 案 例证 明了 义 原 
在 这 一 任务 中 的 有 效 性 。 


在 实验 中 , 我 们 也 发 现 了 使 用 义 原 可 能 带 来 的 一 些 问 题 ， 在 将 来 会 考虑 对 义 原 关系 
进行 建 模 、 学 习 更 好 的 义 原 表示 等 来 解决 这 些 问 题 。 
7.3 ” 义 原 驱动 的 神经 语言 


In A 


模型 


尽管 义 原 知识 已 经 被 应 用 于 很 多 自然 语言 处 理 任务 中 , 但 是 还 鲜 有 人 探索 知 网 在 语 
言 模型 中 的 应 用 , 尤其 是 在 神经 网 络 语 言 模型 中 的 应 用 。 虽 然 神 经 网 络 模型 中 采用 的 是 
连续 性 的 词 表示 , 但 将 离 敌 的 义 原 知识 融入 模型 中 仍然 是 有 意义 的 。 本 市 介绍 的 义 原 驱 


动 的 语言 模型 (Sememe Driven Language Model, SDLM) 可 以 利用 句子 中 的 每 个 词 的 义 
原 信 息 。 为 了 使 模型 预测 下 一 个 出 现 的 词 , 我 们 设计 了 一 个 “ 义 原 - 义 项 - 词 ” 生 成 过 程 : 
D 根据 上 下 文 文本 ,我 们 先 计 算 义 原 的 分 布 ; @ 将 每 一 个 义 原 都 视 为 一 个 语义 专家 信 
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恩 ,我们 提出 了 利用 语义 专家 信息 的 黎 下 和 滋 积 来 选择 可 能 的 义 项 ; O 词语 的 分 布 可 以 倘 
单 地 由 义 项 分 布 计 算得 到 。 

通过 在 《人 民 日 报 》 语 料 由 上 对 SDLM 的 预测 效果 进行 评估 ,以 及 在 大 规模 中 文 短 
文摘 要 (LCSTS) 数据 集 89) 上 进行 标题 生成 任务 的 评估 ， 实 验 结果 表明 SDLM 超过 了 
其 他 数据 驱动 的 基线 模型 。 这 一 节 还 展示 了 案例 分 析 结 朱 , 以 说 明 SDLM 可 以 有 效 地 根 
据 给 定 的 文本 来 进行 相关 义 原 的 预测 , 这 可 以 提高 语言 模型 的 可 解释 性 和 重 棒 性 。 


7.3.1 相关 工作 


1. 神经 网 络 语言 模型 


HM Mikolov FA ''?8) 第 一 次 将 RNN 应 用 于 语言 模型 以 来 , RNN 就 取得 了 在 语言 
模型 方面 的 最 好 效果 。 许 多 语言 模型 相关 的 研究 工作 在 RNN 的 基础 上 进行 拓展 ， 如 许 
多 RNN 的 正则 化 和 优化 的 方法 下 "125 126,217] 。 基 于 一 个 词 如 果 在 前 面 的 文本 中 出 现 , 那 
么 它 很 可 能 再 次 出 现 的 假设 , 一 些 工 作 19°98) 提出 了 应 用 缓存 来 提升 语言 模型 的 效果 。 

在 本 章节 中 , 我 们 主要 关注 输出 解码 器 ， 也 就 是 在 问 量 表示 和 预测 的 词 概率 分 布 之 
间 的 模块 。 与 SDLM 相似 ，Yang SA PM 提出 了 一 个 将 混合 Softmax 结构 应 用 于 输出 
解码 器 的 高 阶 模型 。 与 之 不 同 的 是 ,我 们 的 模型 是 义 原 驱动 的 ,每 一 个 单位 都 对 应 一 个 
可 解释 的 义 原 。 


2. 分 层 解 码 器 


由 于 在 大 规模 的 词 表 上 计算 Softmax 是 十 分 耗 时 的 , 因此 它 通 常 是 一 个 模型 时 间 复 
杂 度 的 重要 因素 ,研究 人 员 提 出 了 各 种 不 同 的 分 层 Softmax 来 解决 这 个 问题 。 根据 这 些 
模型 的 层级 结构 ,可 以 将 它们 分 类 为 基于 类 的 模型 和 基于 树 的 模型 。 

Goodman 等 人 !6341 首先 提出 了 将 整个 词 表 划分 到 不 同 的 类 , 并 利用 分 层 Softmax 解码 
器 来 拟 合 概率 P(word)= P(word|class) P(class) 的 基于 类 的 模型 。 我 们 的 模型 与 之 相似 。 

基于 树 的 模型 将 所 有 的 词组 织 为 树 状 结构 , 词 的 概率 是 从 根 结 点 到 词语 结 点 的 路 径 
的 概率 。Morin 37 利用 词 网 中 的 知识 来 构建 词 树 ，Mnih EA 135) 使 用 集成 方法 构建 词 
BY, Mikolov 等 人 [19°] 则 基于 词 频 构 建 了 哈 夫 曼 树 。 近 来 , Jiang SA 93! 对 基于 树 的 结构 
进行 了 调整 ， 使 得 它 能 够 在 GPU 上 可 以 更 加 高 效 地 计算 。 


D http://paper.people.com.cn/rmrb. 
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我 们 的 模型 与 以 上 模型 之 则 的 主要 区 别 在 于 目的 与 动机 。 我 们 的 模型 由 在 利用 义 原 
知识 来 提高 语言 模型 的 性 能 和 可 解释 性 。 因此 , 我 们 遵循 “ 词 - 义 项 - 义 原 ” 的 架构 来 设计 
我 们 的 分 层 解 码 器 。 而 基于 类 和 基于 树 的 模型 都 主要 被 设计 用 来 在 训练 过 程 中 加 速 Soft- 
max 计算 。 

3. 专家 积 

Hinton 等 人 [779 提出 ， 语 言 模 型 预测 的 词 概率 可 以 由 专家 信息 给 出 的 概率 进行 相 
Fe. Gales 等 人 158 将 专家 积 应 用 到 语音 识别 中 ,其 中 的 专家 信息 是 高 斯 混合 模型 。 与 以 
上 工作 不 同 ， 在 我 们 的 SDLM F, 每 一 位 专家 信息 都 被 映射 到 有 着 更 好 的 解释 性 的 义 
原 。 男 外 ， 因 为 最 终 的 概率 分 布 是 一 个 不 同类 别 上 的 分 布 , 每 一 位 专家 信息 都 只 对 所 有 


类 别 的 一 个 子 集 有 页 献 (通常 子 集 中 的 类 别 少 于 10 M, 所 以 我 们 称 它 为 专家 信息 的 稀 


4. 标题 生成 


怀 题 生成 是 一 基文 本 摘要 任务 。 近 年 来 , 由 于 RNN 的 发 展 ， 标题 生成 领域 中 涌现 
出 许多 工作 。 编 码 -解码 模型 28 在 序列 到 序列 任务 上 取得 了 很 大 的 成 功 。Rush 等 
A CeT 提出 了 基于 局 部 注意 力 机 制 的 模型 来 进行 句子 摘要 。Gu SEA 提出 了 复制 机 
制 , 这 与 人 类 的 死记 人 硬 背 有 相似 之 处 。Ayana FA B 则 应 用 最 小 风险 训练 策略 来 优化 模 
型 参数 。 与 这 些 工 作 不 同 , 我 们 主要 关注 序列 到 序列 模型 的 解码 占 ， 并 采用 SDLM 来 利 
用 义 原 信息 进行 句子 生成 。 


7.3.2 ”任务 设 定 


语言 模型 的 目标 是 学 习 一 系列 词 P P(w! w,- w) 的 联合 概率 ， 它 通常 被 分 解 为 
P(w!,w?,---,w") = I P(wt | w<'). Bengio 等 人 ao 上 自 次 将 语言 模型 建 模 为 一 个 前 馈 
神经 网 络 ， 而 Mikolov 等 人 128| 使 用 RNN 和 一 个 Softmax 层 去 拟 合 条 件 概率 。 具 体 来 
说 , 它 可 以 被 分 解 成 两 个 有 序 的 部 分 。 首先 从 一 个 RNN 生成 一 个 上 下 文 辐 量 gt KK, 

概率 P(w't! | wst) = P(w't1; gt) 从 一 个 伴随 看 基于 gt 的 Softmax 层 的 线性 层 生 成 。 
具体 而 言 , 令 RNN(-,-; Onn) 代表 深度 循环 人 昼 经 网 络 ，ONN 代表 参数 。 第 一 部 分 可 表 

ANA 

g' = RNN(ay«, {h1 }iL1; ONN) (7.10) 
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这 里 我 们 使 用 下 标 表 示 层 , 上 标 表示 时 间 步 , 因此 hy 表示 在 时 刻 t 的 隐 状 态 。 aye E 
R 是 词 wt WRA, Ho 是 词 巾 入 的 维度 。 男 外 gt CR”, Hi 是 上 下 文 向 量 的 维度 。 
假设 句子 长 度 为 N, 第 二 部 分 可 以 表示 为 


exp(9t Wut) 
S epa ww) 
其 中 ， Wwy 是 词 w 的 输出 器 量 ， 而 W1,W2,°°' ,WN €E R”, 这 里 Hə 是 输出 回 量 的 大 小 ， 
对 于 传统 的 神经 语言 模型 来 说 , Ho 和 Hy 总 是 相等 的 。 

给 定语 料 {wt H 损失 函数 可 以 定义 为 负 对 数 似 然 函数 : 


P(w” ;9 ) = (7.11) 


1 TL 
L(0) = E” X log P(w'|w<'; 0) (7.12) 
t=1 


其 中 , 9 = {{xi h {wih Onn} 是 需要 训练 的 参数 。 


7.3.3 ”算法 模型 


在 这 一 部 分 ， 我 们 展示 利用 义 原 信息 来 预测 下 一 个 词 出 现 概率 的 模型 一 一 SDLM。 
SDLM 由 3 个 部 分 组 成 : 义 原 预测 器 、 义 项 预测 器 和 词 预 测 器 。 义 原 预 测 器 将 上 下 文 加 
量 作 为 输入 , 然后 对 每 一 个 义 原 分 配 一 个 权重 。 这 时 , 每 个 义 原 可 以 被 视 为 一 个 “专家 ”， 
对 一 系列 义 项 做 出 概率 分 布 预 测 。 最 终 , 每 个 词 的 概率 在 词 预 测 器 中 获得 。 

图 7.5 所 示 的 例子 可 以 说 明 SDLM 模型 的 结构 。 给 定 文本 “我 在 果园 摘 ”, 下 一 个 词 
可 以 是 “苹果 ”。 从 内 容 中 , 尤其 是 “果园 ”和 “ 摘 ” 两 个 词 中 , 我 们 可 以 推断 ,下 一 个 词 
可 能 是 一 个 水 果 ， 所 以 义 原 预测 器 分 配给 义 原 “ 水 果 ” 一 个 高 的 权重 ， 对 不 相关 的 义 原 
(如 “电脑 ”) 分 配 一 个 较 低 的 权重 。 因 此 , 在 义 项 预测 器 中 ， 义 项 “苹果 (水果) ” 比 义 
项 “苹果 (电脑) ”分 配 的 概率 要 高 。 最 终 词 “ 人 苹果 ”的 概率 是 它 的 义 项 “苹果 (水果) ” 
和 “苹果 (电脑 ) ”的 概率 的 和 。 

我 们 将 所 有 的 义 原 、 义 项 和 词 集 定义 为 E、S、W。 我 们 假设 语料库 包含 K = |2| 个 
义 原 、M = |S| 个 义 项 和 NN = |w Ni. F we w 的 义 项 集合 为 SW)。 义 项 se 5 的 
义 原 集 合 为 E) = {en Ena ,en,} CE = {er} HER, 这 里 我 们 仍然 忽略 义 原 标注 
的 层次 结构 及 义 原 之 间 的 关系 。 
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ROKR) ROKR) 苹果 (计算 机 ) 
P (感知 ) .… “pear(fruit )” “apple(fruit )” “apple(computer)” 


义 元 专家 
水 果 样式 但 携 市 计算 机 特定 牌子 能 
“fruit” “Pattern Val | “bring” “computer” | “SpeBrand” | “able” 
jist M asm ism as 
ae ane 


Al 7.5 SDLM 模型 示例 


1. MIRIAM 
义 原 预测 器 将 上 下 文 回 量 ge R” 作为 输入 , 输出 每 个 义 原 的 权重 。 我 们 假设 给 定 
EFX wt, w, wl, 词 wt 包含 义 原 ep (k € {1,2,… KP 是 独立 的 , 因为 义 原 是 最 
小 的 语义 单位 , 各 个 义 原 之 间 不 存在 语义 重 登 。 为 了 简化 , 我 们 忽略 上 标 to 我 们 将 义 原 
预测 器 设计 成 一 个 以 Sigmoid PBA TB PA Be PEARS as Al, FS mee Ue 
ek 的 概率 可 以 表示 为 
gk = P(ex | g) = a(g i vx + bk) (7.13) 
其 中 , vp € RE, br CR 是 可 以 训练 的 参数 ， 0f.) 表示 Sigmoid 激活 函数 。 


2. SIA FAM as FA va) FAM Bs 


义 项 预测 器 的 结构 来 自 于 专家 积 [9。 我 们 将 每 一 个 义 原 视 为 一 个 只 对 它 对 应 的 义 
项 进行 预测 的 “专家 ”。D(e*) 表示 包含 义 原 e:， 即 第 上 个 “专家 ”的 义 项 的 集合 。 与 直 
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接 使 用 上 下 文 向 量 ge R” 和 输出 向 量 wow € RY? 的 内 积 对 每 个 词 进行 打分 的 传统 语 
言 模型 不 同 , 我 们 使 用 P(g, w) 来 计算 专家 对 义 项 给 出 的 分 数 。 我 们 使 用 一 个 由 矩阵 
Up, E RH 来 参数 化 的 双 线性 函数 作为 0 (.,-) 的 直接 实现 。 


pK) (g, w) = g Urw (7.14) 


令 ws 表示 义 项 s WHat. HOUR GR” er 给 出 的 义 项 s 的 分 数 可 以 写 为 
bo“ (g, ws) Alt, Ril s 由 “专家 ”ej 给 出 的 概率 可 表示 为 
(ex) E exp(qkCr sp% (g, ws)) 
Ptr) (s | g) = Sa ola rd a) 
s'ED(ek) 
HP, Cys HIM, AAW s RASA “SAR” FARE ERE isl, KA 
有 AN 条 边 , 和 < 5)。 这 里 我 们 可 以 选择 Cr s = 1/|E%| (left normalization), 也 可 以 选择 
Cys = 1//JE@)||D)| (symmetric normalization)。 
TE SUR TRUM AEA on 可 以 被 看 作 一 个 控制 Cr 5b) (g, ww.) 大 小 的 门 , 从 而 控制 由 义 
原 “ 专 家 ”ek 给 出 的 义 项 分 布 的 平坦 性 。 考 虑 到 qx 一 0 AV Te. FRM AE ot AE 
NE ARYL. BM, 它 意 味 看 义 原 “专家 ”在 它 和 下 一 个 词 不 相关 时 将 拒 
绝 提供 任何 有 用 的 信息 。 
最 终 , 对 义 项 s 的 预测 可 以 总 结 为 得 到 所 有 相关 “专家 ”的 积 , 然后 进行 正则 化 。 也 
就 是 说 , 义 项 的 预测 概率 满足 


(7.15) 


P(s|g)« |] P&(s|g) (7.16) 


ek EEC) 


结合 式 (7.14) 和 式 (7.15), 我 们 可 以 将 P(s | 9) 表示 为 


| > no 


Ek E£(s) 


P(s | g) = (7.17) 


Ee ` nase! Vom) 


af er EE(sN) 
需要 强调 的 一 点 是 ， 所 有 由 知 网 提供 的 监督 信息 都 体现 在 义 原 “ 专 家 ”和 义 项 之 间 
的 联系 上 ， 如果 模型 想 给 菏 个 义 项 分 配 一 个 噩 的 概率 ， 则 它 必须 对 该 义 项 被 标注 的 义 原 
分 配 一 个 融 的 概率 。 为 外 ,“ 专 家 ”和 义 原 之 间 的 黎 玖 性 同样 由 知 网 中 的 义 原 标注 决定 。 
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对 于 我 们 的 数据 集 来 说 ， 每 个 词 平均 被 标注 3.4 个 义 原 ， 每 一 个 义 原 平均 被 标注 给 22 

个 词 。 

如 图 7.5 所 示 , 在 词 预测 器 中 , 通过 义 项 预测 器 提供 的 义 项 概率 进行 加 和 , 我 们 可 以 
得 到 词 的 预测 概率 : 
P(w|g)= > P(s|g) 
sES() 

3. 实施 细节 

1) 基底 和 矩阵 


(7.18) 
实际 上 , 知 网 包含 K = 2 000 个 义 原 。 在 实际 操作 中 , 我 们 不 能 直接 引入 K x Hi xH 
个 参数 , 那 将 非常 难以 计算 , 并 且 会 出 现 过 拟 合 的 问题 。 为 了 解决 这 个 问题 , 我 们 使 用 了 


一 个 权重 共享 的 方法 , 即 引入 基底 和 矩阵。 我 们 使 用 RR 个 基底 矩阵 的 加 权 和 去 估计 Uk。 


R 

Uz => an,7Q, 
其 中 , Q, e ROM, opr > 0 是 需要 训练 的 参数 ， on, = 1. 
2) WEHE 


(7.19) 


为 了 使 用 权重 绑 定 的 方法 [88,156| , 我 们 对 一 个 词 的 多 个 义 项 使 用 了 相同 的 词 嵌 入 。 有 具 
体 来 说 , 每 个 se SM) 的 输出 词 回 量 ws 和 词 输入 问 量 zw 是 相同 的 。 
7.3.4 ”实验 分 析 


估 。 另 外 , 为 了 表明 SDLM 模型 可 以 作为 序列 到 序列 任务 的 通用 的 中 文 解码 器 ,我 们 在 
LCSTS 数据 集 上 做 了 中 文 标题 生成 实验 。 最 后 , 我 们 通过 案例 探讨 了 该 模型 的 可 解释 性 ， 
展示 了 义 原 知识 的 有 效 性 。 

1. 语言 模型 


我 们 在 《人 民 日 报 》 语 料 上 对 SDLM 模型 用 基于 困惑 度 (perplexity) 的 方法 进行 评 
1) 数据 集 


JF 


《人 民 日 报 》 语 料 包含 《人 民 日 报 》 一 个 月 的 新 闻 文 本 , 已 经 经 过 人 工分 词 。 我 们 将 
《人 民 日 报 》 语 料 划分 为 训练 集 、 验 证 集 和 测试 集 ， 分 别 包 舍 73.4 IF 1.0 AFA 1.9 
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2) 基线 模型 

我 们 使 用 3 种 基于 LSTM 的 神经 语言 模型 作为 基线 模型 : 简单 LSTM, Tied LSTM 
和 AWD-LSTM. 

(1) LSTM 和 Tied LSTM [1 提出 使 用 随机 失 活 能 够 防止 神经 语言 模型 的 过 拟 
合 ， 并 将 其 应 用 于 市 有 不 同 散 入 和 隐 忠 层 大 小 的 双 层 LSTM: 中 型 LSTM HERRN 
650, 大 型 LSTM 疝 量 维度 为 1 500。 采 用 权重 绑 定 策略 ,可 以 使 Tied LSTM 得 到 更 好 的 
性 能 。 我 们 选择 中 型 和 大 型 的 LSTM 与 Tied LSTM 作为 基线 模型 ， 并 使 用 PyTorch 示 
例 代 码 由 实现 上 述 模型 。 

(2) AWD-LSTM 基于 几 种 LSTM 语言 模型 的 规范 化 与 优化 策略 ，Merity A [125 
提出 了 一 个 三 层 神 经 网 络 AWD-LSTM， 其 已 经 成 为 词 级 语言 模型 的 一 个 非常 强 的 基线 
模型 。 我 们 使 用 作者 发 布 的 代码 外 实现 该 模型 。 

(3) Softmax 的 变种 。 为 了 将 我 们 的 SDLM 与 其 他 语言 模型 的 解码 器 进行 比较 ， 
我 们 设置 了 cHSM (基于 类 的 分 层 Softmax) 21, tHSM (基于 树 的 分 层 Softmax) [3° 和 
MoS (混合 Softmax) 21 作为 上 述 基线 模型 的 附加 结构 。 

3) 实验 设置 

我 们 将 SDLM 和 Softmax 缩 构 的 其 他 变 体 应 用 于 架构 LSTM (中 /大 )、 Tied 
LSTM (中 /大 ) 和 AWD-LSTM. MoS 和 SDLM 仅 适 用 于 包含 权重 绑 定 的 模型 ， 而 tHSM 
仪 适用 于 没有 权重 绑 定 的 模型 ， 其 因为 与 该 策略 不 兼容 。 为 了 公平 比较 , 我 们 使 用 相同 
的 实验 设置 训练 这 些 模 型 ， 并 对 基线 模型 和 SDLM 模型 进行 超 参 数 搜索 。 SDLM 的 变 体 
也 使 用 相同 的 超 参 数 。 所 有 模型 使 用 随机 梯度 下 降 法 (SGD) 进行 训练 ， 如 果 在 验证 集 
上 没有 观察 到 任何 提升 ， 就 将 学 习 率 缩小 两 倍 。 我们 统一 初始 化 词 艇 入 、cHSM MAR 
入 和 tHSM 的 非 叶 峙 入 。 此 外 , 我 们 在 Tied LSTM 架构 中 将 R (基底 矩阵 的 数量 ) 设置 
为 5, Æ AWD-LSTM 架构 中 将 R 设置 为 10。 

4) 实验 结果 

《人 民 日 报 》 数 据 集 的 验证 集 与 测试 集 的 单 模 型 困惑 度 如 表 7.5 所 示 。 结合 表 7.5~ 表 
7.7, 我 们 可 以 观察 到 : 

(1) SDLM 优 于 所 有 基线 模型 。 另 外 ,SDLM 不 仅 始终 优 于 最 先进 的 MoS 模型 , 而 
且 提 供 了 更 好 的 可 解释 性 ( 见 后 面 的 案例 研究 部 分 中 的 分 析 ), 这 使 得 语言 模型 的 预测 过 
程 具有 可 解释 性 成 为 可 能 。 注 意 ， 实 验 结果 中 看 不 到 MoS 相对 于 AWD-LSTM 的 改进 ， 


@ https: //github.com/pytorch/examples/tree/master /word_language_model. 
@) https: //github.com/salesforce/awd-lstm-lm. 
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而 SDLM 在 测试 集 的 困惑 度 上 却 比 它 低 1.20. 
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(2) 为 了 进一步 确定 SDLM 的 性 能 改进 程度 ,我 们 分 别 在 Tied LSTM (中 型 ) 和 
Tied LSTM (中 型 ) +SDLM 上 研究 了 单 义 词 和 多 义 词 的 困惑 度 。 测试 集 上 具有 不 同 的 义 


项 数量 的 词 的 困惑 度 如 表 7.6 所 示 。SDLM 在 单 义 词 和 多 义 词 上 的 性 能 都 有 所 提高 ， 且 
SDLM 对 于 多 义 词 取 得 了 更 局 的 结果 ,因为 多 义 词 往往 具有 更 丰 定 的 义 原 信息 。 
提升 。 


表 7.5 
模型 
LSTM (中 型 ) 


+ cHSM 


(3) FER 7.7 中 ， 我 们 探究 了 测试 集 上 具有 不 同 的 义 原 数量 的 词 的 困惑 度 。 可 以 
看 到 ，SDLM 在 所 有 情况 下 都 优 于 基线 模型 ,并且 随 看 义 原 数 量 的 增加 ,性 能 得 到 更 大 


+ tHSM 


《人 民 日 报 》 数 据 集 的 验证 集 与 测试 集 的 单 模 型 困惑 度 
段落 数量 


验证 集 测试 集 
24M 116.46 115.51 
24M 129.12 128.12 
24M 151.00 150.87 
Tied LSTM (中 型 ) 15M 105.35 104.67 
+ cHSM 15M 116.78 115.66 
+ MoS 17M 98.47 98.12 
+ SDLM 17M 97.75 97.32 
LSTM (大 型 ) 76M 112.39 111.66 
+ cHSM 76M 120.07 119.45 
+ tHSM 76M 140.41 139.61 
Tied LSTM (大 型 ) 56M 101.46 100.71 
+ cHSM 56M 108.28 107.52 
+ MoS 67M 94.91 94.40 
+ SDLM 67M 94.24 93.60 
AWD-LSTM* 26M 89.30 85.386 
+ Mos 26M 92.98 92.76 
+ SDLM 27M 88.16 87.66 
注 : * 我 们 发 现 多 层 的 AWD-LSTM 采用 cHSM 存在 融合 问题 ,因此 我 们 忽略 了 那个 结果 。 
表 7.6 测试 集 上 具有 不 同 的 义 项 数量 的 词 的 困惑 度 
困惑 度 (ppl) 义 项 数量 = 1 
基线 ppl 93.21 
SDLM ppl 87.22 
Appl 
Appl/Baseline ppl 


义 项 数量 > 1 
121.18 
111.88 
5.99 9.29 
6.4% 7.8% 
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表 7.7 测试 集 上 具有 不 同 的 义 原 数 量 的 词 的 困惑 度 


ARE (ppl) (1, 2) [2, 4) [4, 7) [7, 14) 
基线 ppl 71.56 161.32 557.26 623.71 
SDLM ppl 68.47 114.95 465.29 476.45 
Appl 3.09 16.36 91.98 147.25 
Appl/ 基 线 ppl 4.3% 10.1% 16.5% 23.61% 


我 们 还 通过 在 知 网 中 随机 删除 10% 的 义 原 - 义 项 连接 来 测试 SDLM WBE. Tied 
LSTM CP) + SDLM 的 测试 困惑 度 略 微 上 升 至 97.67， 而 使 用 完整 的 知 网 数据 则 为 
97.32, 这 表明 SDLM 对 于 义 原 标注 少量 缺失 是 鲁 棒 的 。 然 而 , 模型 的 性 能 依然 在 很 大 程 
度 上 取决 于 义 原 标注 的 准确 性 。 随 着 知 网 的 不 断 更 新 , 我 们 预计 SDLM 能 够 用 更 高 质量 
的 义 原 知 识 来 得 到 更 好 的 效果 。 


2. 标题 生成 


1) 数据 集 

我 们 使 用 LCSTS 数据 集 来 评估 在 序列 到 序列 模型 中 作为 解码 器 的 SDLM 结构 。 数 
据 集 划 分 为 训练 集 、 验 证 集 和 测试 集 ， 其 大 小 分 别 为 2.4M、8.7k 和 725。 

2) 模型 

我 们 选择 RNN-context 作为 基线 模型 。 正如 Bahdanau 等 人 6 所 述 , RNN-context 是 
一 个 使 用 了 双 癌 LSTM 编码 器 、 一 个 LSTM 解码 器 及 注意 力 机 制 的 序列 到 序列 模型 。 在 
解码 时 ,上下文 同 量 与 每 个 时 间 步 的 词 髋 入 进行 连接 。 这 被 广泛 应 用 于 序列 到 序列 的 学 
习 ， 因 此 我 们 将 其 设置 为 基线 模型 。 而 基于 RNN-context, RNN-context-SDLM 用 SDLM 
REL EN FAS 2 o 

3) 实验 设置 

对 于 这 两 种 模型 ， 我 们 设置 词 骨 入 维度 为 250， 隐 藏 层 单元 为 250， 词 汇 表 大 小 为 
40 000, 解码 器 的 束 大 小 为 5。 对 于 RNN-context-SDLM, 我 们 设置 基底 矩阵 数量 为 3。 我 
们 对 两 个 模型 进行 了 超 参 数 搜索 得 到 最 佳 参 数 。 

4) 实验 结果 

承接 前 述 工作 , 我 们 展示 了 测试 集 上 ROUGE-1、ROUGE-2 和 ROUGE-L If] F, 值 。 
K 7.8 表明 我 们 的 模型 在 所 有 指标 上 痢 优 于 基线 模型 。 

标题 中 的 单词 并 不 总 是 出 现在 相应 的 文章 中 , 但 是 具有 相同 义 原 的 单词 很 可 能 直观 
地 出 现在 文章 中 。 因 此 ， 得 到 提升 的 可 能 原因 是 我 们 的 模型 可 以 预测 与 文章 内 容 高 度 相 


音 
天 的 义 原 ， 从 而 生成 更 准确 的 标题 。 这 可 以 通过 我 们 的 案例 研究 得 到 证 实 。 
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% 7.8 LCSTS 测试 集 上 两 种 模型 的 Rouge 值 
模型 Rouge-1 Rouge-2 
RNN-context 37.5 
RNN-context-SDLM 38.9 
3. 案例 研究 


Rouge-L 
25.0 34.9 
26.2 36.2 


上 述 两 个 实验 证 明了 SDLM 的 有 效 性 。 在 这 里 , 我 们 从 表 7.9 PH (ABR AFR) iF 
料 库 的 测试 集 及 表 7.10 中 的 LCSTS 数据 集中 提取 一 些 样 本 , 并 做 进一步 分 析 。 
表 7.9 


《人 民 日 报 》 数 据 集 的 测试 集中 的 词 和 义 原 预测 的 一 些 例子 
样 例 1 
去 年 美国 贸易 逆差 初步 估计 为 <N> _。 
The U.S. trade deficit last year is initially estimated to be <N> 
预测 概率 最 高 的 5 个 词 
美元 一 dollar , eM “on 
日 元 一 yen 和 一 and 
预测 概率 最 高 的 5 个 义 原 
商业 一 commerce 金融 一 finance 单位 一 unit 
£ ‘>—amount —proper name 
样 例 2 
阿 总 理 已 签署 了 一 项 命令 。 
Albanian Prime Minister has signed an order. 
预测 概率 最 高 的 5 个 词 
内 一 inside <unk> 
塔 一 tower 和 一 and 
政治 一 politics 
承担 一 undertake 


在 一 at 
预测 概率 最 高 的 5 个 义 原 
人 一 person 


水 域 一 waters 


花草 一 fowers 
对 于 语言 模型 中 的 每 个 例子 , 给 定 前 一 个 词 的 上 下 文 , 我 们 列 出 通过 SDLM 预测 的 
概率 最 高 的 5 个 词 和 5 个 义 原 。 在 知 网 中 用 它们 注释 的 目标 词 和 义 原 被 屏蔽 了 。 注意 如 
果 目 标 词 是 未 登录 词 , 则 与 目标 义 项 相关 的 有 用 的 义 原 会 被 屏 殴 。 


在 样 例 1 中 , “美元 一 dollar” 被 标注 的 义 原 有 “单位 一 unit”“ 丙 业 一 commerce”“ 金 
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融 一 fnance”“ 和 货币 一 monev” 和 “美国 一 US”。 而 目标 词 “ 美 元 (dollar) ”被 正确 预测 , 并 
且 它 的 大 部 分 义 原 在 预测 过 程 中 都 被 激活 。 这 表明 SDLM 已 经 学 到 了 词 - 义 项 - 义 原 的 层 
级 结构 ,并 且 使 用 义 原 知识 能 改进 语言 模型 。 

样 例 2 表明 SDLM 可 以 使 用 与 之 关联 的 义 原 信息 提供 未 登录 词 预测 的 可 解释 的 结 
条 。 这 里 的 目标 词 应 该 是 阿尔 巴 尼 亚 总 理 的 名 字 , 不 在 词 表 中 。 但 是 根据 SDLM 的 预测 
结果 , 我 们 仍然 可 以 得 出 这 样 的 结论 : 这 个 词 可 能 与 “政治 一 politics”“ 人 一 person”“ 花 
草 一 Howers”“ 承 担 一 undertake” 和 “水 域 一 waters” 这 些 义 原 有 关 ,， 其 中 的 大 部 分 描述 了 
这 个 未 登录 词 的 词义 一 一 一 个 政治 家 的 名 字 。 当 词 表 大 小 有 限 或 语料库 有 许多 术语 和 
名 称 时 ， 此 蕊 能 会 有 所 帮助 。 


表 7.10 一 个 在 LCSTS 的 测试 集中 生成 标题 的 例子 
文本 
8 日 ， 旱 新 一 开 宝马 轿车 参加 融 考 的 男 考生 考场 作弊 被 抓 ， 因 不 满 监考 老师 没收 作 束 手机， 从 背后 一 脚 将 监考 老师 
从 最 后 一 排 踊 到 讲 合 ， 并 口 出 狂言 :你 知道 我 区 是 谁 啊 ， 你 就 得 我 ?” 目前, 打 人 考生 已 被 拘留 。 
On the 8th im Fuxin, a male student drove a BMW to take the college entrance exam and was caught cheating. 
Because the teacher confiscated his mobile phone, he kicked the teacher from the last row to the podium and 


shouted: “Do you know who my dad is? How dare you catch me!” Currently, this student has been detained. 


PERSEE Ie SI: PRATER HE? 
In the college entrance exam, a male student caught cheating hit the teacher: Do you know who my dad is? 
RNN-context-SDLM 
GEE EBM | 你 知 妃 我 区 是 谁 啊 ? 
In the college entrance exam, a student was caught cheating: Do you know who my dad is? 
预测 概率 最 高 的 5 个 义 原 
考试 一 exam ”学 习 一 study 特定 牌子 一 brand 
预料 一 predict ”高 等 一 higher 


对 于 标题 生成 的 例子 ， 给 定 文章 和 前 面 的 词 ， 当 产生 词 “ 生 一 student” 时 ， 除 了 义 
原 “ 预 料 一 predicts”， 其 他 前 5 个 预测 的 义 原 都 与 其 他 预测 的 词 或 上 下 文 有 非常 强 的 相 
关 性 。 具 体 来 说 ， 义 原 “ 学 习 一 study” 在 知 网 中 是 用 “ 生 一 student” 来 注释 的 。“ 考 试 一 
exam” RIN “AA”. “RET brand” RIR “BMW”. “高 等 一 higher” 表 示 “ 高 等 教 
A”, 也 就 是 高 考 的 下 一 步 。 我 们 可 以 得 出 结论 , 通过 义 原 知识 , SDLM 结构 可 以 明确 地 
从 给 定 的 文章 和 生成 的 单词 中 提取 关键 信息 ,并 基于 它 生 成 更 好 的 摘要 。 
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在 这 一 部 分 中 , 我 们 介绍 了 辅 以 分 层 义 原 - 义 项 - 词 解码 右 的 可 解释 的 义 原 驱动 的 语 
言 模型 。 除 了 可 解释 性 ， 该 模型 还 在 中 文 建 模 任 务 中 取得 了 超过 其 他 模型 的 结果 , 而 且 
信息 来 提高 模型 性 能 。 


在 标题 生成 任务 中 也 取得 了 很 好 的 效果 。 这 些 结果 都 表明 了 SDLM 可 以 成 功 地 利用 义 原 
7.4 BRERA 


本 章 以 知 网 在 中 文 版 LIWC 词典 扩展 和 神经 语言 模型 中 的 应 用 为 例 , 介绍 了 语言 知 
识 表示 的 应 用 。 


两 个 例子 充分 次 明了 知 网 这 一 语言 知识 图 请 所 具有 的 丰富 知识 信息 , 对 下 诉 应 用 任 
务 具有 明显 的 改 赤 作用 。 而 当前 对 知 网 的 应 用 ,只 是 利用 了 其 中 的 义 原 , 忽略 了 义 原 和 


词汇 之 则 复 淋 的 结构 和 关系 ， 其 实 这 里 面 也 包含 了 大 量 的 知识 信息 可 以 锌 利用 。 因 此， 
未 来 就 如 何 更 好 地 利用 义 原 知识 还 有 很 多 地 方 可 以 进一步 探索 。 


如 本 书 第 1 章 所 述 , 我 们 坚信 知识 图 谱 是 通 往 鲁 棒 可 解释 人 工 智能 的 必由之路 ， 而 
关键 挑战 在 于 如 何 构建 全 类 型 、 高 覆盖 的 大 规模 知识 图 谱 ， 如 何 将 这 些 知 识 融入 并 指导 
深度 学 习 模 型 ， 如 何 利 用 现 有 技术 开展 创新 的 知识 计算 应 用 。 近 年 来 , 我 们 分 别 面 向 世 
界 知识 和 语言 知识 两 种 典型 知识 ， 开 展 了 表示 学 习 、 上 自动 获取 与 计算 应 用 的 研究 工作 ， 
本 书 就 是 对 这 些 工作 的 整理 介绍 。 

在 第 一 篇 中 , 我 们 面向 知识 表示 问题 ,系统 开展 了 考虑 各 类 丰富 信息 的 知识 表示 学 
JER, 具体 包括 考虑 复杂 关系 建 模 (2.3 节 )、 考 虑 关系 路 径 建 模 (2.4 节 )、 考 虑 属性 关 
系 建 模 (2.5 节 )、 融 合 实体 描述 (2.6 节 )、 融 合 实体 类 型 (2.7 节 ) 及 融合 实体 图 像 (2.8 
节 ) 等 工作 , 以 期 提升 知识 表示 的 性 能 与 鲁 棒 性 ; 面向 知识 获取 问题 , 系统 开展 了 针对 预 
定义 关系 类 型 的 知识 获取 技术 , 具体 包括 提出 句 级 注意 力 机 制 (3.3 节 ) 和 关系 层次 注意 
力 机 制 (3.4 TT) 解决 远程 监督 的 噪声 标注 问题 , 提出 多 语言 注意 力 机 制 (3.5 节 ) 和 对 抗 
训练 机 制 (3.6 节 ) 实现 多 语言 关系 抽取 , 提出 知识 与 文本 间 的 互 注意 力 机 制 (3.7 节 ) 以 
更 好 利用 已 有 知识 图 谱 进 行 关系 抽取 ; 面向 知识 应 用 问题 , 我 们 面向 实体 分 类 (4.2 节 )、 
实体 对 齐 (4.3 节 ) 和 信息 检索 (4.4 节 ) 等 典型 场景 , 验证 了 知识 图 谱 对 提升 深度 学 习 模 
型 性 能 与 鲁 棒 性 的 有 效 性 。 

在 第 二 篇 中 ,我们 以 HowNet 中 的 义 原 语言 知识 为 代表 开展 研究 工作 , 面向 知识 表 
示 问 题 , 开展 了 义 原 的 表示 学 习 (5.3 节 )、 基 于 义 原 的 词 表示 学 习 (5.4 节 ) 等 工作 ; M 
向 义 原 知识 获取 问题 ， 开展 了 基于 协同 过 滤 的 词汇 义 原 预测 技术 (6.3 节 )、 融 合 中 文字 
信息 的 义 原 预测 技术 (6.4 节 )、 路 语言 词汇 的 义 原 预测 技术 (6.5 节 ) 等 工作 ; 面向 义 原 


第 8 章 ”总 结 与 展望 221 


知识 应 用 问题 , 我 们 选取 了 词典 扩展 (7.2 市 )、 语 言 模型 (7.3 T 两 个 代表 场景 ,验证 
了 义 原 知识 对 提升 目 然 语言 处 理 深 度 学 习 模 型 性 能 的 有 效 性 。 

通过 以 上 两 方面 知识 的 探索 经 历 , 我 们 更 加 坚信 结构 化 知识 图 谐 将 对 人 工 智能 的 发 
展 发 挥 关键 作用 。 我 们 以 分 布 式 表示 学 习 为 手段 , 探索 语言 知识 和 世界 知识 的 表示 和 学习 
AR, 形成 了 是 知识 的 统一 语义 表示 体系 ,能够 有 力 文 持 深度 学 习 技 术 的 鲁 棒 性 和 可 解 
释 性 。 在 统一 富 知识 的 语义 表示 体系 基础 上 , 我 们 探索 了 语言 知识 和 世界 知识 指导 的 目 
然 语 言 处 理 技 术 ， 能 够 将 结构 化 知识 有 效 地 融入 语言 模型 的 学 习 与 应 用 ， 显 车 提升 自然 
语言 的 深度 理解 能 力 。 我 们 进一步 利用 自然 语言 深度 学 习 模 型 进行 大 规模 知识 的 目 动 获 
取 , 建立 深度 学 习 与 知识 图 谱 协 同 发展 的 目 然 语 言 处 理 技术 体系 ,实现 知识 获取 与 语言 
理解 的 双 四 驱动 。 通 过 上 述 探索 ,我 们 锚 步 实 现 了 数据 驱动 的 深度 学 习 撤 术 与 符号 表示 
的 大 规模 人 类 先 验 知 识 的 有 机 融合 , 在 一 定 程度 上 缓解 了 目 然 语 言 深度 学 习 技术 的 可 解 
释 性 差 、 可 扩展 性 差 和 和 鲁 棒 性 差 等 问题 。 


8.2 ”未 来 展望 


通过 这 些 年 的 努力 ,我 们 取得 了 一 些 成 果 ， 这 些 工 作 仍 然 只 是 非常 初步 的 答 试 。 在 
各 类 型 结构 化 知识 的 表示 竺 习 、 目 动 获取 和 计算 应 用 方面 , 仍然 有 很 多 开放 挑战 问题 蝶 
TER, 我们 做 以 下 展望 忌 结 。 


8.2.1 更 全 面 的 知识 类 型 


在 知识 类 型 方面 , 本 书 主 要 探索 了 语言 知识 和 世界 知识 两 种 类 型 的 知识 。 如 第 1 章 
图 例 所 示 ， 人 类 知识 还 包括 常识 知识 、 认 知 知 识 、 行 业 知 识 等 丰富 的 类 型 ， 均 对 自然 语 
言 处 理 等 认 知 能 力 具 有 重要 意义 , 但 这 些 知识 的 表示 学 习 、 自 动 获 取 和 计算 应 用 问题 都 
各 有 挑战 。 

常识 知识 是 指 普通 人 应 预知 的 知识 ， 其 内 涵 和 外 延 并 没有 明确 定义 ,因此 哪些 是 常 
WA, 如 何 表 示 这 些 和 常识 , OWA, RASE. 尚 无 统一 的 公认 标准 。 和 常识 知识 的 特点 非 
党 明显 ， 就 是 在 语言 交流 中 默认 双方 共同 具备 这 些 知 识 ， 也 因此 被 称 为 common-sense。 
正 因为 是 双方 默认 具备 的 知识 , 常识 一 般 不 会 被 显 式 提 及 和 说 明 , 这 就 为 常识 知识 的 自 
动 获取 带 来 巨大 的 挑战 。 
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认 知 知识 是 指 人 类 对 这 个 世界 的 主观 认识 所 形成 的 知识 。 如果 说 世界 知识 包含 的 是 
这 个 世界 的 客观 知识 ， 如 现实 世界 中 实体 之 间 和 存在 的 复 末 关系 等 , 那么 认 知 知识 则 重 在 
包含 人 类 对 这 个 世界 的 主观 认 知 。 当 然 ， 从 哲学 角度 看 ,世界 知识 其 实 也 体现 人 类 的 主 
WU, 诸如 对 不 同 实体 的 划分 ， 这 在 不 同 语言 和 文化 中 可 以 看 到 明显 差异 , 例如 ,对 
天 空 星辰 的 划分 ,西方 的 星座 和 东方 的 星 箱 差异 明显 。 但 整体 而 言 ， 世 界 知识 更 加 贴近 
客观 人 存在， 主观 成 分 不 大 。 认 知 知识 则 强调 人 类 的 主观 认 知 ， 这 在 认 知 语言 学 中 有 比较 
多 的 探讨 。 隐 喻 (metaphor) 是 人 类 认 知 的 集中 体现 ， 人 们 经 常会 将 “时 间 ” 比 喻 成 “ 金 
钱 ”“ 流 水 ”等 有“ 时间 就 是 金钱 ”“ 似 水 流年 ”的 说 法 , 在 客观 世界 中 , 时间、 金钱 、 
注水 等 并 无 客观 上 的 关联 关系 , 但 在 人 类 认 知 中 , 会 认为 “时 间 ” 和 “金钱 ”都 有 宇 贵 的 
价值 ;“ 时 间 ” 和 “流水 ”都 会 流逝 ， 从 而 形成 这 些 比喻 联想 。 如 何 实现 对 这 些 主观 认 知 
知识 的 目 动 获取 与 显 式 表示 , 其 全 能 够 模拟 人 类 认 知 机 制 创造 出 新 的 认 知 知识 (如 建立 
不 同 概念 之 间 的 隐喻 )， 对 自然 语言 的 理解 和 生成 均 有 重要 意义 。 

金融 、 医 疗 、 法 律 、 教 育 等 专业 领域 还 有 大 量 行 业 知识 , 均 以 目 然 语言 作为 主要 的 
信息 记录 与 传递 的 载体 ， 因此 在 文本 中 同时 包含 丰富 行业 知识 。 如何 对 这 些 领域 的 专门 
知识 进行 上 自动 获取 与 表示 计算 , 对 领域 专业 文本 的 理解 与 生成 公关 重要 。 

人 类 知识 还 不 止 于 此 ， 如果 把 基于 常识 等 知识 的 推理 规则 也 作为 一 种 知识 的 话 ， 那 
么 我 们 还 需要 构建 关于 知识 的 知识 , 即 元 知识 ; 人 类 还 有 对 不 同 对 象 的 主观 情感 与 感受 ， 
情感 知识 ; 即使 本 书 涉及 的 语言 知识 ， 也 还 有 人 句法 知识 、 篇 章 知 识 等 。 这 些 知 识 互相 关 
联 ， 形 成 人 类 对 世界 和 上 自身 的 整体 认 知 ， 是 真正 实现 鲁 棒 可 解释 人 工 智能 的 知识 基础 。 
因此 , 未 来 需要 进一步 拓展 知识 图 谱 所 包含 的 知识 类 型 。 


8.2.2 ”更 复杂 的 知识 结构 


即使 本 书 涉及 的 义 原 语言 知识 和 实体 关系 知识 , 也 面临 知识 结构 过 于 简单 的 局 限 性 。 
这 些 义 原 语言 知识 和 实体 关系 知识 大 致 以 三 元 组 形式 表示 ， 即 表示 两 个 对 和 象 之 间 的 关 
系 。 三 元 组 结构 简洁 有 效 , 适合 存储 和 计算 。 但 人 类 知识 的 结构 更 加 复杂 多 元 ， 因 此 我 
们 需要 超越 三 元 组 , 建立 对 更 复杂 知识 结构 的 表示 、 获 取 和 计算 的 能 力 。 

以 义 原 语言 知识 为 例 , 实际 上 为 每 个 词义 标注 的 多 个 义 原 之 间 也 有 复杂 的 修饰 和 约 
束 关 系 ,这些 义 原 通过 这 些 复 杂 关 系 整体 形成 对 词义 含义 的 表示 ,这 是 用 一 个 个 孤立 的 
三 元 组 无 法 表示 的 。 

以 世界 知识 为 例 , 考 名 哲学 家 维特 根 斯 坦 曾 在 《逻辑 哲学 论 》 中 指出 , 世界 是 事实 的 
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总 和 ,而 非 事 物 的 总 和 。 所 以 , 除了 现实 中 存在 的 实体 和 它们 的 关系 之 外 ,世界 知识 还 
应 包含 所 有 发 生 过 的 事件 。 每 个 事件 往往 人 至少 包 括 时 间 、 地 点 、 人 物 、 事 件 类 型 等 丰富 
信息 , 无 法 简单 地 用 一 个 个 孤立 的 三 元 组 来 表示 。 事 件 知识 的 获取 与 计算 , 最 近 在 信息 
抽取 领域 逐渐 受到 关注 , 不 过 无 论 从 数据 集合 的 规模 还 是 事件 类 型 的 丰 是 程度 来 看 , 15 
然 有 很 大 的 探索 空间 。 

此 外 , 世界 知识 的 结构 仍然 是 平 的 (plain), 没有 建立 起 复杂 的 层次 抽象 结构 。 实 际 
E, 世界 知识 是 有 层次 的 (hierarchical) ， 人 们 会 在 不 同 场景 下 选用 不 同 抽象 层次 的 信息 。 
例如 ， 在 “中 国外 交 部 就 更 晚 舟 事件 发 表 评论 ”这 人 句 话 中 “ 盏 晚 舟 事 件 ” 被 作为 一 个 整 
体 事 实 提 及 ， 而 实际 上 这 个 事实 内 部 又 包含 丰富 的 “ 子 事实 ”， 如 发 生 的 时 间 、 当 事 人 、 
事件 类 型 , 等 等 。 在 世界 知识 层次 化 方面 , 目前 还 没有 什么 有 影 啊 的 研究 工作 。 


8.2.3 ”更 有 效 的 知识 获取 


简单 的 三 元 组 知识 ,对 应 现 有 的 知识 获取 技术 。 如 在 实体 关系 抽取 方面 , 目前 是 将 
其 转换 为 文本 分 类 任务 ,将 两 实体 出 现 的 句子 作为 样 例 , 将 关系 类 型 作为 分 类 体系 。 即 
使 面向 这 种 简单 的 三 元 组 知识 获取 , 仍然 有 很 多 开放 问题 值得 探索 , 例如， 如 何 跨 越 句 
TUF, 实现 文档 级 的 实体 关系 抽取 ; 如 何 路 越 语言 边界 , 实现 多 语言 的 实体 关系 抽取 
如 何 跨 越 预 定义 的 关系 类 型 体系 ,实现 开放 关系 的 知识 获取 ; 等 每。 这些 探索 将 有 助 于 
我 们 建立 更 有 效 的 知识 获取 技术 。 

超越 三 元 组 知识 , 面 问 事件 知识 等 更 复杂 知识 结构 ,我 们 则 需要 建立 全 新 的 知识 获 
取 技 术 框架 。 在 这 方面 ,目前 的 解决 方案 仍然 是 将 这 些 复杂 的 知识 结构 降解 为 三 元 组 来 
分 而 治之 。 未 来 , 在 图 神经 网 络 、 概 率 图 模型 、 络 构 预测 等 新 的 机 器 学 习 工 具 的 文 持 下 ， 
我 们 需要 探索 能 够 更 有 效 利用 复杂 知识 络 构 的 知识 获取 拉 术 。 


8.2.4 ”更 强大 的 知识 指导 


本 书 探索 了 一 些 将 语言 知识 和 世界 知识 融入 深度 学 习 模 型 的 成 功 方案 。 需 要 看 到 ， 
这 些 方案 疝 缺 乏 理论 支持 ， 都 是 针对 特定 任务 、 特 定 知识 的 特定 设计 ， 尚 未 形成 统一 的 
知识 指导 的 框 染 。 如 何 建立 统一 有 效 的 知识 指导 的 深度 学 习 丛 染 , 让 符号 表示 的 结构 化 
知识 有 机 地 融入 深度 学 习 , 指导 数据 驱动 的 学习 过 程 , 也 是 目前 机 需 学 习 领 域 的 热点 研 
究 方 回 , 国内 外 很 多 研究 机 构 痢 提出 了 各 种 深度 学 习 框 架 。 

值得 一 提 的 是 , 知识 指导 的 有 效 性 既 与 深度 学 习 框 架设 计 有 关 ， 也 与 知识 图 谱 对 目 
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标 任 务 文本 的 履 理 度 有 关 。 以 机 天 翻译 为 例 , SURAT A ts AS BC a ASE BN 
种 常识 知识 、 语 言 知识 和 世界 知识 等 ， 即 使 深度 学 习 框 架设 计 能 够 充分 融合 知识 指导 ， 
也 显然 很 难 发 挥 知识 图 谱 的 作用 。 因 此 , 为 了 建立 更 强大 的 知识 指导 ,还 需要 面向 我 们 
关心 的 目标 任务 , 有 针对 性 地 收集 所 需 的 各 类 知识 。 这 也 是 知识 图 详 和 深度 学 习 双 问 驱 
动 的 意义 所 在 。 


8.2.5 IBA AJANA JEI 


本 书 并 未 涉及 关于 知识 推理 的 探索 。 实际 上 , SPORTS EN BBR MZ 
束 是 能 够 在 离散 符号 表示 的 基础 上 , 进行 显 式 的 深度 智能 推理 , 这 是 可 解释 人 工 智 能 实 
现 从 数据 感知 到 智能 认 知 的 重要 路 径 , 对 目 然 语言 处 理 和 知识 获取 都 有 关键 作用 。 

机 器 学 习 领 域 推出 的 图 神经 网 络 和 概率 图 模型 均 以 建立 推理 能 力 为 目标 。 目前 , 基 
于 大 规模 数据 和 知识 图 详 的 智能 推理 还 没有 什么 有 影响 力 的 研究 成 采 , 很 多 对 知识 推理 
能 力 的 探索 也 散布 在 阅读 理解 、 事 实验 证 、 知 识 获取 等 特定 任务 中 开展 。 如 何 面 加 大 规 
模 知 识 图 谱 建 六 有 效 的 深度 推理 能 力 , 受到 很 多 方面 的 约束 。 除 了 在 大 规模 图 谱 上 进行 
推理 的 计算 复杂 上 度 问 题 外 ,知识 图 谱 往 往 存 在 类 型 不 全 、 信息 缺失 等 问题 ,因此 需要 探 
索 面 问 不 完全 信息 甚至 噪声 信息 的 精准 推理 能 力 ; 现 有 知识 图 谐 还 偶 浅 层 ， 缺乏 深层 的 
抽象 知识 (如 前 所 述 的 层次 世界 知识 )， 需 要 在 多 层 抽 象 知识 的 支持 下 才能 实现 深度 推 
理 能 力 。 

以 上 关于 知识 类 型 、 知 识 结构 、 知识 获取 、 知识 指 导 和 知识 推理 的 问题 密切 关联 , H. 
HRE, 因此 不 能 攻 其 一 上 把 、 不 及 其 余 , 值得 未 来 深入 探索 , 齐头并进 , 协同 实现 鲁 棒 可 
解释 的 人 工 智能 。 


8.3 ZARA 


我 们 过 去 几 年 始终 围绕 语言 和 知识 的 智能 计算 开展 研究 工作 。 在 这 个 过 程 中 , 除了 
积极 了 解 自 然 语言 处 理 、 机 器 学 习 、 知 识 工 程 、 信 息 检索 等 领域 的 最 新 进展 之 外 ， 我们 
还 非常 天 注 普 通 语 言 学 、 认 知 语言 学 、 脑 神经 科学 、 和 社会 语言 学 ， 其 全 语言 哲学 的 主要 
观点 、 理论 和 进展 ,语言 和 知识 , 不 止 是 人 工 智 能 关切 的 主题 ， 更 是 哲学 、 神经 科学 、 社 
会 科学 等 关注 的 话题 。 这 些 学 科 都 从 各 上 自 特 有 的 视角 ， 利 用 特有 的 研究 工具 ， 对 语言 和 
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知识 做 出 了 很 多 有 益 的 思考 、 发 现 和 冰释 。 例如, 语言 哲学 领域 对 语言 与 世界 之 间 关系 
的 反思 , 认 知 语言 学 领域 对 概念 的 范畴 论 观点 和 隐喻 理论 ,普通 语言 学 领域 提出 的 符号 
系统 、 普 遍 语法 和 语言 能 力 的 观点 ， 都 是 对 语言 和 知识 某 个 方面 本 质 的 刻画 。 这 些 学 科 
对 语言 和 知识 的 思考 和 探索 ,本 身 也 高 度 交 叉 , 互相 启发 。 

在 人 工 智能 视角 下 , 更 关注 语言 和 知识 的 形式 化 和 可 计算 性 ,目前 更 多 从 机 器 学 习 
领域 获取 计算 工具 ， 以 完成 自然 语言 处 理 和 知识 图 谱 的 相关 计算 任务 。 而 面向 人 工 智能 
的 终极 目标 ， 让 计算 机 真正 像 人 一 样 思考 ,我 们 需要 更 宽广 地 获取 创新 源泉 ， 从 更 多 的 
学 科 那 里 获取 对 语言 和 知识 的 考察 成 果 ， 为 语言 和 知识 的 形式 化 和 计算 模型 提供 素材 ， 
这 也 将 是 我 们 未 来 的 奋斗 目标 。 


相关 开源 资源 


名 称 URL 

OpenKE https: //github.com/thunlp/OpenKE 

OpenNRE https: //github.com/thunlp/OpenNRE 

OpenHowNet-API https: //github.com/thunlp/OpenHowNet-API 

KRLPapers https: //github.com/thunlp/KRLPapers 

NREPapers https: //github.com/thunlp/NREPapers 

SCPapers https: //github.com/thunlp/SCPapers 
OpenkE 


一 套 知 识 表示 开源 框架 , 集成 了 TransE、RESCAL DistMult. HolE. ComplEx 在 内 
的 诸多 知识 表示 模型 , 同时 支持 多 线程 和 显卡 加 速 , 支持 TensorFlow 和 PyTorch 两 种 不 
同 框架 的 实现 , 支持 自 定义 的 模型 扩展 。 


OpenNRE 


一 套 神经 关系 抽取 开源 框架 ,实现 了 包括 神经 网 络 编码 器 、 注 意 力 机 制 在 内 的 诸多 
模块 ,可 以 快速 实现 诸多 经 典 关 系 抽取 模型 ; 支持 显卡 加 速 , 支持 目 定 义 的 模型 扩展 。 


OpenHowNet-API 


本 项 目 存放 HowNet 核心 数据 和 清华 大 学 自然 语言 处 理 与 社会 人 文 计 算 实验 室 开 发 
的 OpenHowNet API, 提供 方便 的 HowNet 信息 查询 、 义 原 树 展示 、 基 于 义 原 的 词 相 似 度 
计算 等 功能 。 
KRLPapers 

知识 表示 的 论文 阅读 列表 , 收录 了 知识 表示 研究 方面 的 各 类 经 典 期 刊 、 会 议论 文 。 
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NREPapers 
关系 抽取 的 论文 阅读 列表 , 收录 了 关系 抽取 研究 方面 的 各 类 经 典 期 刊 、 会 议论 文 。 
SCPapers 
义 原 计算 的 论文 阅读 列表 , 收录 了 义 原 计算 研究 方面 的 各 类 经 典 期 刊 、 会 议论 文 。 
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后 i 


我 在 2006 年 至 2011 年 直 博 期 间 主要 从 事 关 键 词 抽取 和 社会 标签 推荐 的 研究 工作 ， 
博士 毕业 后 做 了 两 年 多 的 博士 后 ,仍然 延续 博士 期 间 的 课题 ,逐渐 意识 到 这 个 课题 已 经 
没有 太 多 挑 成 问题 值得 探索 了 。 


2013 年 ， 以 神经 网 络 为 代表 的 深度 学 习 刚 在 语音 识别 和 图 像 识 别 领 域 斩 露 头角 , 在 
目 然 语言 处 理 领 域 还 只 有 一 些 零星 的 工作 , 与 传统 方法 相 比 效果 也 并 不 太 明 显 。 很 多 学 
者 对 深度 学 习 能 盏 在 目 然 语言 处 理 延续 成 功 众说 纷 练 , 一 种 代表 看 法 是 ,图像 的 最 小 单 
元 像素 和 语音 中 的 最 小 单元 音素 几乎 不 包含 任何 语义 信息 , 深度 学 习 闭 于 从 大 规模 数据 
中 学 习 由 像素 / 音 妈 组 成 图 像 /语音 全 过 程 中 的 语义 模式 ， 而 目 然 语 言 处 理 中 的 最 小 处 理 
单元 词 〈 或 汉字 ) 就 已 经 包含 丰 宦 信息 , 也 许 深度 学 习 的 “深度 ”并 无 用 武之 地 。 这 个 时 
候 , 词 表示 学 习 算 法 word2vec、 知 识 表示 学 习 算 法 TransE 和 网 络 表示 学 习 算 法 Deep Walk 
先后 出 世 , 让 我 们 看 到 深度 学 习 的 优势 不 仅 体现 在 “深度 ”上 , 而 且 其 “分 布 式 表 示 ” 机 
制 也 有 看 重要 意义 。 

9014 年 ， 基 于 word2vec. TransE, Deep Walk 等 的 算法 在 大 规模 数据 上 的 早 越 性 能 ， 
我 们 也 开始 了 自己 的 探索 之 路 。 先 是 与 博士 生 陈 新 雄 利用 WordNet 知识 进行 词义 表示 
学 习 , 论文 发 表 在 EMNLP 2014 上 ; 与 本 科 生 刘 扬 将 隐 含 主题 模型 融合 到 word2vec 中 ， 
论文 发 表 在 AAAI 2015 E; 同时 与 当时 还 是 本 科 生 后 来 留 组 读 博 的 林 衍 凯 探 索 如 何 改进 
TransE, 提出 了 较 早 的 儿 个 改进 模型 之 一 TransR, 论文 发 表 在 AAAI 2015 上 。 在 这 
些 最 初 成 果 的 沿 励 下 , 我 们 进一步 在 知识 表示 学 习 方 面 捉 出 了 考虑 关系 路 径 的 PTransE、 
考虑 实体 属性 的 KR-EAR、 考 虑 实体 描述 的 DKRL、 考 虑 实体 类 别 的 TKRL、 考 虑 实体 
图 像 的 IKRL, 在 词 表 示 学 习 方面 提出 了 考虑 汉字 信息 的 CWE, 在 网 络 表示 学 习 方 面 提 
出 了 考虑 文本 信息 的 TADW 等 。2015 年 ,在 这 些 语义 表示 学 习 特 别 是 知识 表示 学 习 研 
究 经 验 的 基础 上 ,我 们 看 到 ,新 的 知识 不 止 来 目 基 于 知识 表示 学 习 技 术 的 图 谐 补 全 , 我 
们 还 应 当 考 虑 如 何 从 大 规模 无 结构 文本 中 获取 结构 化 知识 , 因此 开始 与 起 士 生 林 衍 山 探 
索 基 于 深度 学 习 的 关系 抽取 技术 , 提出 了 句子 级 别 注意 力 机 制 来 缓解 远程 监督 的 标注 噪 
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声 问题 , 论文 发 表 在 ACL 2016 E, bia tira) J JLJBABHE BR MI. REE. FR. ERE 
智 、 高 天 宇 等 同学 在 考虑 跨 语 言 、 考 虑 知识 图 谱 信息 、 考 虑 对 抗 机 制 、 考 虑 少 次 学 习 等 
场景 的 关系 抽取 问题 。 


2016 年 ， 孙 成 松 老 师 带 博士 生 陈 新 雄 利 用 HowNet 知识 进行 词义 表示 学 习 ， 也 获得 
了 正面 的 效果 , 在 此 局 发 下 , 从 2017 年 开始 , 我 们 开始 探索 如 何在 深度 学 习 模 型 中 利用 
HowNet 提供 的 语言 知识 ,先后 将 HowNet 知识 引入 word2vec 算法 、 神 经 网 络 语言 模型 、 
领域 词典 构建 任务 等 。 同 时 , 我 们 提出 可 以 利用 深度 学 习 技 术 帮 助 构建 HowNet 知识 , 建 
立 义 原 预 出 任务 ,先后 符 试 了 协同 过 泪 等 技术 和 考虑 内 部 字 、 多 语言 等 信息 。 这 些 工 作 
均 顺 利 在 ACL. EMNLP, IJCAI, AAAI 等 国际 会 议 发 表 , 得 到 了 学 术 同 行 一 定 的 关注 和 
认可 。2018 Œ, 中 文 信息 学 会 秘书 长 孙 乐 老师 将 我 们 的 这 些 工 作 转发 给 了 HowNet 创始 
人 重 振 东 先 生 , 得 到 了 董 先生 的 豆 励 和 认可 , 曾 专门 给 孙 戊 松 老 师 和 我 发 电子 邮件 交流 ， 
还 通过 微 信 发 来 或 励 寄 语 ， 照 录 如 下 :“ 知 远 ， 很 高 兴 接 到 你 的 来 信 ， 你 的 用 知 网 摘 事 情 
的 视频 我 看 了 ， 虽 然 由 于 我 的 知识 结构 还 不 能 完全 懂 ， 但 可 以 有 所 了 解 ， 学 到 了 一 些 很 
有 价值 的 东西 。 再 重复 上 次 说 过 的 : 你 的 选 题 是 正确 的 。 因 为 无 论 你 研究 结果 证 明知 网 
这 样 的 语义 (知识 体系 ) 是 正确 还 是 不 正确 的 ， 你 的 研究 都 是 成 功 的 ， 都 是 对 语言 信息 
处 理 、 人 工 智 能 具有 创 狐 意义 的 页 献 。 知 网 的 一 个 关键 点 是 : 人 类 的 认 知 是 可 以 建立 在 
有 限 的 意义 的 最 小 单位 基础 上 呢 ， 还 是 建立 在 无 限 的 以 符号 表示 的 概念 的 基础 上 的 呢 ? 
先 写 到 这 里 ， 很 希望 你 常 来信， 有 问题 ， 有 不 同意 见 ， 都 很 欢迎 。” 正 是 在 董 先生 的 这 些 
AW F 我们 提出 将 HowNet 开源 以 提升 义 原 学 术 思 想 影 响 力 的 建议 。 因 为 HowNet 毕 
竟 凝 聚 了 重 先 生 的 毕生 心血 ， 一 直 采 用 授权 收费 的 模式 ， 所 以 我 们 也 做 好 了 被 拒绝 的 准 
备 。 没 想到 ， 这 个 建议 马上 得 到 了 董 振东 先生 和 董 强 先生 父子 的 认可 , CER RN 
调 筹 备 下 ，HowNet 的 开源 版 本 OpenHowNet F 2019 年 1 月 21 日 正式 发 布 了 。 然 而 到 
2019 年 3 月 ,我 们 才 得 知 董 振 东 先 生 于 2019 年 2 月 28 日 仙 逝 的 消息 , 我 们 痛 失 了 一 位 
目 然 语 言 处 理 和 计算 语言 学 的 开拓 者 。 回 想起 来 ,非常 荣 李 能 够 在 董 先生 最 后 的 一 年 里 
得 到 他 的 工 励 和 指点 ,又 感到 无 限 可 惜 没 能 在 先生 有 生 之 年 多 癌 他 请 教学 习 。 让 我 们 有 
些许 安慰 的 是 , 我 们 最 近 基 于 HowNet 学 术 思 想 的 研究 成 果 , 或 可 以 告慰 董 先生 在 天 之 
R, 也 特别 希望 开源 OpenHowNet 能 够 让 董 先 生 的 思想 和 精神 发 扬 光 大 。 

总 结 起 来 , 从 2014 年 到 2019 年 这 几 年 的 探索 , MRE SCA. 每 份 工作 都 像 
拿 到 手 里 的 一 张 小 图 块 ， 一 开始 只 是 些 孤 立 的 探索 、 尝 试 ， 慢 慢 地 ， 开 始 对 全 部 图 景 有 
了 轮廓 认识 ， 并 日 渐 清 晰 ， 这 幅 拼 图 的 主题 就 是 “知识 图 谱 与 深度 学 习 ” 形 成 的 知识 
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He: 基于 深度 学 习 的 知识 获取 可 以 帮助 知识 图 谱 构 建 ,融合 知识 指导 的 深度 学 习 可 以 提 
升 智能 信息 处 理 的 鲁 棒 可 解释 能 力 ， ETA BARU, BASH. RATE. 一旦 研 
究 思 路 明确 了 ， 未 来 探索 方 同 更 加 清晰 ， 那 就 是 探索 更 全 面 的 知识 类 型 、 更 复杂 的 知识 
结构 、 更 有 效 的 知识 获取 、 更 强大 的 知识 指导 、 更 精深 的 知识 指导 。 虽 然 这 份 书稿 已 经 
画 上 句号, 但 对 这 个 方 同 的 探索 才刚 起 步 。 现 在 看 来 ， 当 初 很 多 研究 成 果 还 很 稚嫩 ， 很 
有 些 匠 气 。 所 溺 的 是 ,这些 工 作者 是 围绕 看 同一 个 母 题 开展 的 ， 放 在 一 起 还 顾 有 可 观 之 
处 , Pro item ABI HK, 供 业 内 专家 指正 , 指导 未 来 努力 方 同 , 也 供 后 学 者 参考 , 吸 
引 更 多 同学 加 入 共同 探索 。 

本 书 得 到 了 众多 师 友 的 指导 和 帮助 。 我 的 导师 清华 大 学 孙 刻 松 教 授 为 本 书 的 研究 工 
作 提 供 了 大 量 真知 灼 见 , 他 的 很 多 学 术 思 想 也 均 体 现在 这 些 研究 成 果 中 , 因此 列 为 本 书 
作者 之 一 。 清华 大 学 李 滑 子 教授 、 北 京 大 学 冯 岩 松 博士 、 中 国人 民 大 学 赵 锣 博 士 审阅 了 
本 书 , 并 提出 了 宝贵 的 意见 和 建议 。 清华 大 学 出 版 社 对 本 书 出 版 提供 了 大 力 文 持 和 帮助 。 
本 书 的 这 些 研究 成 果 也 离 不 开 多 年 来 一 直 关 心 和 支持 我 们 工作 的 前 辈 、 同 事 、 同 行 和 同 
学 们 。 在 此 一 并 衷心 表示 感谢 ! 

我 们 深信 ， 数据 与 知识 的 深度 融合 计算 是 人 工 智 能 发 展 的 必然 起 势 。 深 度 学 习 与 知 
识 图 谱 的 融合 互动 是 人 工 智能 的 前 沿 方 回 , RRA SAS. 我们 也 在 不 断 努 力学 习 。 由 
于 水 平 有 限 , KERTEM, 态 请 各 位 读者 批评 指正 , 提出 宝贵 意见 和 建议 , 均 
可 发 至 我 的 工作 邮箱 liuzy@tsinghua.edu.cn。 如 有 修订 新 版 的 机 会 , 我 们 将 认真 改进 。 


刘知远 
2020 年 3 月 于 清华 大 学 FIT 楼 


